[Practical Statistics] 추측 통계(Inferential Statistics)

2 minute read

Inferential Statistics(추측 통계)

  • 표본의 특징을 통해 모집단의 특징을 추측하는 것
  • 통계량으로부터 모수를 추측하는 것

1) 표본

모집단의 일부를 뽑아낸 데이터

  • 현실적으로 전수조사를 통해 모집단의 특징을 바로 관찰하기 어렵기 때문에
    표본 데이터를 관찰할 수 밖에 없는 경우, 표본의 특징만 확인한다.


2) 모수(Parameter)와 통계량(Statistic)

모수(Parameter)

  • 모집단의 특징을 나타내는 값
  • 알 수는 없지만, 우리가 알고자 하는 특징

모수의 종류

평균($\mu$), 분산($\sigma^2$), 표준편차($\sigma$)

통계량(Statistic)

표본으로부터 관찰되는 표본의 특징을 나타내는 값

  • 통계량을 통해 표본의 모양을 묘사함
  • 통계량은 대부분 평균을 사용한다.
  • 표본이 달라지면 통계량이 달라진다.

통계량의 종류

평균($\bar{X}$), 분산($S^2$), 표준편차($S$)


3) 표본분포(Sampling Distribution)

표본의 크기가 n으로 정해졌을 때, 추출될 수 있는 모든 표본으로부터 구한
통계량들로 구성된 확률분포

표본평균분포(Sampling Distribution of Sample Means)

표본평균($\bar{X}$) 값들을 확률변수로 하는 확률분포

예제

1, 3, 5, 7, 9 숫자가 적힌 5장의 카드가 있을 때($\mu : 5, \sigma^2 : 8$)
표본크기 2로 복원추출하여 표본평균($\bar{X}$)을 계산

  • 표본평균($\bar{X}$)의 확률변수 X = {1, 2, 3, 4, 5, 6, 7, 8, 9}

      1 3 5 7 9
    1 1 2 3 4 5
    3 2 3 4 5 6
    5 3 4 5 6 7
    7 4 5 6 7 8
    9 5 6 7 8 9
  • 표본평균($\bar{X}$)의 확률분포표

    $X$ 1 2 3 4 5 6 7 8 9
    $P(X = x)$ $\cfrac{1}{25}$ $\cfrac{2}{25}$ $\cfrac{3}{25}$ $\cfrac{4}{25}$ $\cfrac{5}{25}$ $\cfrac{4}{25}$ $\cfrac{3}{25}$ $\cfrac{2}{25}$ $\cfrac{1}{25}$
  • 표본평균의 평균($\bar{X}$)

    확률변수 X의 기댓값, E(X)

    $E(X)=\sum(확률변수 * 확률변수의\ 발생확률)$

    $E(X) = (1 \times \cfrac{1}{25}) + (2 \times \cfrac{2}{25}) + \dots + (9 \times \cfrac{1}{25}) = 5\ (\bar{X} = \mu)$

  • 표본평균의 분산($S^2$)

    확률변수 X의 분산, V(X)

    $V(X)=\sum{(확률변수-기댓값)^2 \times 확률변수의\ 발생확률}$

    $V(X) = {(1-5)^2 \times \cfrac{1}{25}} + {(2-5)^2 \times \cfrac{1}{25}} + \dots + {(9-5)^2 \times \cfrac{1}{25}} = 4\ (S^2\ =\ \cfrac{\sigma^2}{n}\ =\ \cfrac{모분산}{표본크기\ n})$


4) 중심극한의 정리(Central Limit Theorem, CLT)

모집단의 분포와 상관없이 모집단의 평균 $\mu$와 표준편차 $\sigma$가 존재할 때
표본 크기 n이 충분히 크면($n\ge30$) 표본평균분포는 정규분포를 따른다.

표본 크기(n)

  • 표본평균분포에서 표본평균의 분산을 줄이는 것에 영향을 줌
  • 표본크기가 증가할수록 표본평균의 분산은 감소함

표본평균분포로 모집단의 특징을 추정한다!

  • $n\ge30$이라면, 모집단의 분포와 상관없이 정규분포를 사용하여 추정이 가능하다.
  • 표본의 통계량($\bar{X}, S^2$)으로 모집단의 모수($\mu, \sigma^2$)를 추정(Estimation)할 수 있다.


5) 표준오차(Standard Error)

표본분포의 변동성(분산) 측정지표

$SE = \sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$

  • 표준오차는 추정의 정확도를 알려준다.
  • 표준오차가 작을수록 추정치가 더욱 정밀하다는 것을 의미한다.
  • 표준오차를 2배 줄이기 위해서는 표본의 크기를 4배 증가시켜야 한다(Square Root of n Rule)

6) 표본오차(Sampling Error)

구간추정(Interval Estimation)의 최대허용오차

Critical Value(임계값) $\times$ Standard Error(표준오차)

$ (Z\ or\ X^2\ or\ t) \times\ (\sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$)

  • 표본오차는 편향(Bias)과 우연(Chance)에 의해 발생한다.
    • 편향에 의한 오차 감소를 위해서는 표본 추출 방법을 엄격하게 수행한다.
    • 우연에 의한 오차 감소를 위해서는 표본 크기를 증가시킨다.

7) 표본추출(Sampling)

모집단의 특징을 추출하기 위해 모집단에서 대표할 만할 표본을 추출하는 것

확률표본추출법(Probability Sampling)

분석자의 의도가 반영되지 않는 확률 기반의 표본 추출 기법

확률표본추출법의 종류

(1) 단순 임의 추출법(Simple Random Sampling)

임의의 난수를 부여하고 난수표를 이용하여 표본을 추출하는 방법

  • 가장 이상적인 방법
  • 모집단의 크기가 적은 경우에 사용(일반적)
(2) 계통 추출법(Systematic Sampling)

K(모집단 수/표본 수)를 계산하여 1 부터 K 사이에서 임의로 한 개 표본을 추출하고
K씩 더해가면서 해당 위치에서 표본을 추출하는 방법

(3) 층화 추출법(Stratified Sampling)

모집단을 여러 개 그룹으로 나누고, 각 그룹에서 일정한 수 만큼 표본을 추출하는 방법

  • 그룹의 크기를 고려하여 그룹으로부터 추출할 표본의 비율을 계산하여 추출함
    • 모집단 100명 중 60명을 여자, 40명을 남자 그룹으로 나눴다면
      10개의 표본을 추출할 경우 여자 그룹에서 6명을, 남자 그룹에서 4명을 추출한다.
  • 그룹 내 표본 추출 방식은 단순 임의 추출법이나 계통 추출법을 사용함
  • 그룹화를 잘못할 경우 오차가 발생함
(4) 군집 추출법(Cluster Sampling)

층화 추출법과 같이 그룹화를 진행하고, 난수를 사용하여 하나의 군집을 선택하여 표본으로 추출하는 방법

  • 군집의 크기가 표본의 크기보다 크다면, 단순 임의 추출법을 적용함

Leave a comment