[Practical Statistics] 추측 통계(Inferential Statistics)

March 13, 2021 2 minute read

Inferential Statistics(추측 통계)

표본의 특징을 통해 모집단의 특징을 추측하는 것

통계량으로부터 모수를 추측하는 것

1) 표본

모집단의 일부를 뽑아낸 데이터

현실적으로 전수조사를 통해 모집단의 특징을 바로 관찰하기 어렵기 때문에
표본 데이터를 관찰할 수 밖에 없는 경우, 표본의 특징만 확인한다.

2) 모수(Parameter)와 통계량(Statistic)

모수(Parameter)

모집단의 특징을 나타내는 값

알 수는 없지만, 우리가 알고자 하는 특징

모수의 종류

평균($\mu$), 분산($\sigma^2$), 표준편차($\sigma$)

통계량(Statistic)

표본으로부터 관찰되는 표본의 특징을 나타내는 값

통계량을 통해 표본의 모양을 묘사함
통계량은 대부분 평균을 사용한다.
표본이 달라지면 통계량이 달라진다.

통계량의 종류

평균($\bar{X}$), 분산($S^2$), 표준편차($S$)

3) 표본분포(Sampling Distribution)

표본의 크기가 n으로 정해졌을 때, 추출될 수 있는 모든 표본으로부터 구한
통계량들로 구성된 확률분포

표본평균분포(Sampling Distribution of Sample Means)

표본평균($\bar{X}$) 값들을 확률변수로 하는 확률분포

예제

1, 3, 5, 7, 9 숫자가 적힌 5장의 카드가 있을 때($\mu : 5, \sigma^2 : 8$)
표본크기 2로 복원추출하여 표본평균($\bar{X}$)을 계산

표본평균($\bar{X}$)의 확률변수 X = {1, 2, 3, 4, 5, 6, 7, 8, 9}

	1	3	5	7	9
1	1	2	3	4	5
3	2	3	4	5	6
5	3	4	5	6	7
7	4	5	6	7	8
9	5	6	7	8	9

표본평균($\bar{X}$)의 확률분포표

$X$	1	2	3	4	5	6	7	8	9
$P(X = x)$	$\cfrac{1}{25}$	$\cfrac{2}{25}$	$\cfrac{3}{25}$	$\cfrac{4}{25}$	$\cfrac{5}{25}$	$\cfrac{4}{25}$	$\cfrac{3}{25}$	$\cfrac{2}{25}$	$\cfrac{1}{25}$

표본평균의 평균($\bar{X}$)

확률변수 X의 기댓값, E(X)

$E(X)=\sum(확률변수 * 확률변수의\ 발생확률)$

$E(X) = (1 \times \cfrac{1}{25}) + (2 \times \cfrac{2}{25}) + \dots + (9 \times \cfrac{1}{25}) = 5\ (\bar{X} = \mu)$
표본평균의 분산($S^2$)

확률변수 X의 분산, V(X)

$V(X)=\sum{(확률변수-기댓값)^2 \times 확률변수의\ 발생확률}$

$V(X) = {(1-5)^2 \times \cfrac{1}{25}} + {(2-5)^2 \times \cfrac{1}{25}} + \dots + {(9-5)^2 \times \cfrac{1}{25}} = 4\ (S^2\ =\ \cfrac{\sigma^2}{n}\ =\ \cfrac{모분산}{표본크기\ n})$

4) 중심극한의 정리(Central Limit Theorem, CLT)

모집단의 분포와 상관없이 모집단의 평균 $\mu$와 표준편차 $\sigma$가 존재할 때
표본 크기 n이 충분히 크면($n\ge30$) 표본평균분포는 정규분포를 따른다.

표본 크기(n)

표본평균분포에서 표본평균의 분산을 줄이는 것에 영향을 줌
표본크기가 증가할수록 표본평균의 분산은 감소함

표본평균분포로 모집단의 특징을 추정한다!

$n\ge30$이라면, 모집단의 분포와 상관없이 정규분포를 사용하여 추정이 가능하다.
표본의 통계량($\bar{X}, S^2$)으로 모집단의 모수($\mu, \sigma^2$)를 추정(Estimation)할 수 있다.

5) 표준오차(Standard Error)

표본분포의 변동성(분산) 측정지표

$SE = \sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$

표준오차는 추정의 정확도를 알려준다.
표준오차가 작을수록 추정치가 더욱 정밀하다는 것을 의미한다.
표준오차를 2배 줄이기 위해서는 표본의 크기를 4배 증가시켜야 한다(Square Root of n Rule)

6) 표본오차(Sampling Error)

구간추정(Interval Estimation)의 최대허용오차

Critical Value(임계값) $\times$ Standard Error(표준오차)

$ (Z\ or\ X^2\ or\ t) \times\ (\sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$)

표본오차는 편향(Bias)과 우연(Chance)에 의해 발생한다.
- 편향에 의한 오차 감소를 위해서는 표본 추출 방법을 엄격하게 수행한다.
- 우연에 의한 오차 감소를 위해서는 표본 크기를 증가시킨다.

7) 표본추출(Sampling)

모집단의 특징을 추출하기 위해 모집단에서 대표할 만할 표본을 추출하는 것

확률표본추출법(Probability Sampling)

분석자의 의도가 반영되지 않는 확률 기반의 표본 추출 기법

확률표본추출법의 종류

(1) 단순 임의 추출법(Simple Random Sampling)

임의의 난수를 부여하고 난수표를 이용하여 표본을 추출하는 방법

가장 이상적인 방법
모집단의 크기가 적은 경우에 사용(일반적)

(2) 계통 추출법(Systematic Sampling)

K(모집단 수/표본 수)를 계산하여 1 부터 K 사이에서 임의로 한 개 표본을 추출하고
K씩 더해가면서 해당 위치에서 표본을 추출하는 방법

(3) 층화 추출법(Stratified Sampling)

모집단을 여러 개 그룹으로 나누고, 각 그룹에서 일정한 수 만큼 표본을 추출하는 방법

그룹의 크기를 고려하여 그룹으로부터 추출할 표본의 비율을 계산하여 추출함
- 모집단 100명 중 60명을 여자, 40명을 남자 그룹으로 나눴다면
  10개의 표본을 추출할 경우 여자 그룹에서 6명을, 남자 그룹에서 4명을 추출한다.
그룹 내 표본 추출 방식은 단순 임의 추출법이나 계통 추출법을 사용함
그룹화를 잘못할 경우 오차가 발생함

(4) 군집 추출법(Cluster Sampling)

층화 추출법과 같이 그룹화를 진행하고, 난수를 사용하여 하나의 군집을 선택하여 표본으로 추출하는 방법

군집의 크기가 표본의 크기보다 크다면, 단순 임의 추출법을 적용함

Gilbert