[Practical Statistics] 추측 통계(Inferential Statistics)
Inferential Statistics(추측 통계)
- 표본의 특징을 통해 모집단의 특징을 추측하는 것
- 통계량으로부터 모수를 추측하는 것
1) 표본
모집단의 일부를 뽑아낸 데이터
- 현실적으로 전수조사를 통해 모집단의 특징을 바로 관찰하기 어렵기 때문에
표본 데이터를 관찰할 수 밖에 없는 경우, 표본의 특징만 확인한다.
2) 모수(Parameter)와 통계량(Statistic)
모수(Parameter)
- 모집단의 특징을 나타내는 값
- 알 수는 없지만, 우리가 알고자 하는 특징
모수의 종류
평균($\mu$), 분산($\sigma^2$), 표준편차($\sigma$)
통계량(Statistic)
표본으로부터 관찰되는 표본의 특징을 나타내는 값
- 통계량을 통해 표본의 모양을 묘사함
- 통계량은 대부분 평균을 사용한다.
- 표본이 달라지면 통계량이 달라진다.
통계량의 종류
평균($\bar{X}$), 분산($S^2$), 표준편차($S$)
3) 표본분포(Sampling Distribution)
표본의 크기가 n으로 정해졌을 때, 추출될 수 있는 모든 표본으로부터 구한
통계량들로 구성된 확률분포
표본평균분포(Sampling Distribution of Sample Means)
표본평균($\bar{X}$) 값들을 확률변수로 하는 확률분포
예제
1, 3, 5, 7, 9 숫자가 적힌 5장의 카드가 있을 때($\mu : 5, \sigma^2 : 8$)
표본크기 2로 복원추출하여 표본평균($\bar{X}$)을 계산
-
표본평균($\bar{X}$)의 확률변수 X = {1, 2, 3, 4, 5, 6, 7, 8, 9}
1 3 5 7 9 1 1 2 3 4 5 3 2 3 4 5 6 5 3 4 5 6 7 7 4 5 6 7 8 9 5 6 7 8 9 -
표본평균($\bar{X}$)의 확률분포표
$X$ 1 2 3 4 5 6 7 8 9 $P(X = x)$ $\cfrac{1}{25}$ $\cfrac{2}{25}$ $\cfrac{3}{25}$ $\cfrac{4}{25}$ $\cfrac{5}{25}$ $\cfrac{4}{25}$ $\cfrac{3}{25}$ $\cfrac{2}{25}$ $\cfrac{1}{25}$ - 표본평균의 평균($\bar{X}$)
확률변수 X의 기댓값, E(X)
$E(X)=\sum(확률변수 * 확률변수의\ 발생확률)$
$E(X) = (1 \times \cfrac{1}{25}) + (2 \times \cfrac{2}{25}) + \dots + (9 \times \cfrac{1}{25}) = 5\ (\bar{X} = \mu)$
- 표본평균의 분산($S^2$)
확률변수 X의 분산, V(X)
$V(X)=\sum{(확률변수-기댓값)^2 \times 확률변수의\ 발생확률}$
$V(X) = {(1-5)^2 \times \cfrac{1}{25}} + {(2-5)^2 \times \cfrac{1}{25}} + \dots + {(9-5)^2 \times \cfrac{1}{25}} = 4\ (S^2\ =\ \cfrac{\sigma^2}{n}\ =\ \cfrac{모분산}{표본크기\ n})$
4) 중심극한의 정리(Central Limit Theorem, CLT)
모집단의 분포와 상관없이 모집단의 평균 $\mu$와 표준편차 $\sigma$가 존재할 때
표본 크기 n이 충분히 크면($n\ge30$) 표본평균분포는 정규분포를 따른다.
표본 크기(n)
- 표본평균분포에서 표본평균의 분산을 줄이는 것에 영향을 줌
- 표본크기가 증가할수록 표본평균의 분산은 감소함
표본평균분포로 모집단의 특징을 추정한다!
- $n\ge30$이라면, 모집단의 분포와 상관없이 정규분포를 사용하여 추정이 가능하다.
- 표본의 통계량($\bar{X}, S^2$)으로 모집단의 모수($\mu, \sigma^2$)를 추정(Estimation)할 수 있다.
5) 표준오차(Standard Error)
표본분포의 변동성(분산) 측정지표
$SE = \sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$
- 표준오차는 추정의 정확도를 알려준다.
- 표준오차가 작을수록 추정치가 더욱 정밀하다는 것을 의미한다.
- 표준오차를 2배 줄이기 위해서는 표본의 크기를 4배 증가시켜야 한다(Square Root of n Rule)
6) 표본오차(Sampling Error)
구간추정(Interval Estimation)의 최대허용오차
Critical Value(임계값) $\times$ Standard Error(표준오차)
$ (Z\ or\ X^2\ or\ t) \times\ (\sqrt{\cfrac{\sigma^2}{n}}\ or\ \sqrt{\cfrac{S^2}{n}}$)
- 표본오차는 편향(Bias)과 우연(Chance)에 의해 발생한다.
- 편향에 의한 오차 감소를 위해서는 표본 추출 방법을 엄격하게 수행한다.
- 우연에 의한 오차 감소를 위해서는 표본 크기를 증가시킨다.
7) 표본추출(Sampling)
모집단의 특징을 추출하기 위해 모집단에서 대표할 만할 표본을 추출하는 것
확률표본추출법(Probability Sampling)
분석자의 의도가 반영되지 않는 확률 기반의 표본 추출 기법
확률표본추출법의 종류
(1) 단순 임의 추출법(Simple Random Sampling)
임의의 난수를 부여하고 난수표를 이용하여 표본을 추출하는 방법
- 가장 이상적인 방법
- 모집단의 크기가 적은 경우에 사용(일반적)
(2) 계통 추출법(Systematic Sampling)
K(모집단 수/표본 수)를 계산하여 1 부터 K 사이에서 임의로 한 개 표본을 추출하고
K씩 더해가면서 해당 위치에서 표본을 추출하는 방법
(3) 층화 추출법(Stratified Sampling)
모집단을 여러 개 그룹으로 나누고, 각 그룹에서 일정한 수 만큼 표본을 추출하는 방법
- 그룹의 크기를 고려하여 그룹으로부터 추출할 표본의 비율을 계산하여 추출함
- 모집단 100명 중 60명을 여자, 40명을 남자 그룹으로 나눴다면
10개의 표본을 추출할 경우 여자 그룹에서 6명을, 남자 그룹에서 4명을 추출한다.
- 모집단 100명 중 60명을 여자, 40명을 남자 그룹으로 나눴다면
- 그룹 내 표본 추출 방식은 단순 임의 추출법이나 계통 추출법을 사용함
- 그룹화를 잘못할 경우 오차가 발생함
(4) 군집 추출법(Cluster Sampling)
층화 추출법과 같이 그룹화를 진행하고, 난수를 사용하여 하나의 군집을 선택하여 표본으로 추출하는 방법
- 군집의 크기가 표본의 크기보다 크다면, 단순 임의 추출법을 적용함
Leave a comment