[Practical Statistics] 기술통계(Descriptive Statistics)
Descriptive Statistics(기술 통계)
1. 정의
1) Descriptive
기술하다(적다)
2) Statistics
데이터를 수집 및 정리하여 특징을 확인하는 것
- 통계학에서 최종적으로 알고 싶은 것 : 모집단(전체 집합)의 특징
- 특징 : 중심화 경향치, 산포도
3) Descriptive Statistics(기술 통계)
모집단의 특징을 확인하기 위해 데이터를 수집, 분석, 시각화하는 것
- 특정 집단에 관한 현상을 수학적으로 연산하여 기술하는 것
- 특징을 기술(설명)할 수 있으면함, 어떤 사실을 객관적으로 표현 가능하다.
- 하나의 수치로 결론을 내릴순 없지만, 결론을 향한 기반을 제공함
2. 통계 변수와 척도
통계 변수에 따라 분석 방법이 달라진다.
변수는 머신러닝 관점에서 X, Input, Feature와 동일함
통계 척도(Scale) | 연산 | |
범주형 변수 (Categorical) |
명목형(Nominal) | ==, != |
순서형(Ordinal) | >, < , >=, <= | |
수치형 변수 (Numerical) |
구간형(Interval) | +, - |
비율형(Ration) | *, / |
범주형(Categorical) 변수
- 명목형(Nominal)
- 측정값의 같고 다름만 확인 가능
- 순서 없음
- 예 : 혈액형, 성별, 결혼여부(이진)
- 시각화 방법 : Pie Chart, Bar Chart
- 순서형(Ordinal)
- 순서 있음(값의 차이는 의미 없음)
- 예 : 서비스 만족도, 학력, 사회계급
- 시각화 방법 : Bar Chart(열의 순서 중요)
수치형(Numerical) 변수
- 구간형(Interval)
- 순서가 있고, 간격이 동일함
- ‘0’의 의미가 없음(상대 영점)
- 셀 수 있음(Finite)
- 소수점이 의미가 없음(자동차는 1대, 2대로 세지만, 1.5대로 세지 않음)
- 예 : 온도, 발생 빈도, 성적
- Visualization Methods : Bar Chart(열의 순서 중요)
- 비율형(Ratio)
- 사칙연산이 모두 가능함
- ‘0’의 의미가 있음(절대 영점)
- 셀 수 없음(Infinite)
- 소수점이 의미가 있음
- 예 : 나이, 키, 무게, 길이, 혈압
- Visualization Methods : Boxplot, Histogram
수치적인 의미에 따른 분류
- 이산형 : 수치적인 의미를 가지고 있으나, 소수점으로 표현되지 않는 경우(예 : 1.5명)
- 연속형 : 수치적인 의미 / 소수점 표현 가능 / 측정 가능 데이터
0 의 의미
아무것도 존재하지 않는 상태(절대 영점)
- 구간형(Interval) : 온도가 0도라는 것은 과학적으로 정의한 숫자를 0으로 표기한 것이므로 비율적 의미를 부여할 수 없음
- 비율형(Ratio) : 길이가 0이라는 것은 아무것도 없는 상태를 의미함
3. 모집단의 특징
1) 중심화 경향치(Measure of Central Tendency)
무엇을 중심으로 모여 있는 가?
집단을 대표할 가능성이 큰 값
중심화 경향치 종류
(1) 평균(mean)
전체 데이터를 더한 다음, 데이터의 개수로 나눠준 값
- 이상치(Outlier)
평균에 급격하게 영향을 주는 값
- 이상치 때문에 집단을 대표하지 못할 수도 있음
(2) 중앙값(median)
전체 데이터를 크기 순으로 정렬하여 순서상 중앙에 위치한 값
(3) 최빈값(mode)
전체 데이터에서 가장 빈번하게 관찰된 값
2) 산포도(Degree of Dispersion)
집단 내 데이터가 흩어져 있는 정도
- 중심화 경향치를 기준으로 얼마나 떨어져 있는가?(이론적으로 중심화 경향치가 먼저 계산되어야 함)
- 중심화 경향치가 없다면 범위(Range)로 산포 확인 가능
산포도 종류
(1) 범위(Range)
연속형 값의 최솟값과 최댓값 사이의 거리
- 범위는 Outlier를 포함하고 있음
- $ Range = 최댓값 - 최솟값$
(2) 사분위 범위(InterQuartile Range, IQR)
0%, 25%, 50%, 75%, 100% 구간으로 나눈 사분위수에서
25%와 75% 사이 값들(Boxplot)
https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51
(3) 분산(Variance)
관측치들이 평균(중심 경향치)에서 평균적으로 얼마나 떨어져 있는지 확인하기 위한 값
편차값(관측치 - 평균)의 제곱의 합을 데이터의 수로 나눈 값
- 편차값으로는 흩어진 정도를 조사할 수 없으므로, 편차값 제곱의 평균으로 계산
- 제곱하였기 때문에 값이 너무 커지는 단점이 있다.
ddof(degree of freedom)
pandas와 numpy에서 분산을 계산할 때 모분산이냐 표본 분산이냐에 따라 ddof값을 다르게 설정해줘야한다.
표준편차도 마찬가지.
- 모분산
- 편차값 제곱의 합을 n으로 나눔
- ddof = 0(numpy default)
- 표본분산(불편 분산)
- 편차값 제곱의 합을 n-1으로 나눔
- ddof = 1(pandas default)
(4) 표준편차(Standard deviation)
분산의 양의 제곱근
Leave a comment