[Practical Statistics] 회귀 분석(Regression Analysis)

March 15, 2021 1 minute read

Regression Analysis(회귀 분석)

과거의 결과값을 기준으로 미래의 결과값을 예측하는 방법
독립변수(x)로 종속변수(y)를 예측하는 것

1) 인과관계 성립조건 3가지

(1) 두 변수(현상)가 동시에 변화해야 한다.

공분산, 상관계수

(2) 원인변수(독립변수)가 선행되어야 한다.

원인변수(독립변수, x)는 결과변수(종속변수, y) 보다 선행되어야 한다.
예 : 광고비 지출(x)에 대한 매출 변화(y)

(3) 기타 요인이 없어야 한다.

오로지 원인변수(x) 만이 결과변수(y)를 변화시켜야 하고, 제 3의 변수가 영향을 줄 가능성을 모두 제거해야 한다.
통제된 실험환경 및 분석환경, 변수 통제
사실, 기타 요인을 완벽하게 통제할 수 없다.

2) 회귀(Regression)

미래에 발생할 결과값이 ‘과거의 평균으로 돌아간다’

3) 회귀식

$y ~ ax + b$ 에서 최소제곱법으로 회귀계수를 계산

$x$의 값에 따라 $y$값이 결정된다.
- $y$ : 종속변수(반응변수)
- $x$ : 독립변수(설명변수)

4) 최소제곱법(Ordinary Least Squares)

회귀식의 파라미터값을 추정하는 방법 중 하나

$SST = SSR + SSE$

SST(Total Sum of Squared)
- y의 전체 변동
- $\sum(y-\bar{y})^2$
SSR(Regression Sum of Squared)
- 회귀 직선으로 설명되는 변동
- $\sum(\hat{y}-\bar{y})^2$
SSE(Error Sum of Squared)
- 회귀 직선으로 설명 불가능한 변동
- $\sum(y-\hat{y})^2$

5) 결정계수(Coefficient of Determination)

회귀모형의 설명력
X로 Y의 변동을 얼마나 설명할 수 있는가?

회귀모델의 적합도 평가를 위해 사용되는 계수
종속변수 예측값과 실제값의 상관계수 제곱값
0 ~ 1의 범위를 가지며, 1에 가까울수록 선형회귀모델의 설명력이 높다.
독립변수 개수가 증가하면 결정계수값이 증가함

$R^2 = \cfrac{SSR}{SST} = 1 - \cfrac{SSE}{SST}$

6) 수정된 결정계수(Adjusted $R^2$)

다중회귀분석에서 사용되는 결정계수

독립변수의 개수가 증가함에 따라 $R^2$ 값이 증가하는 문제가 발생하므로, 수정하여 사용이 필요함
독립변수 개수 $p$ 를 분모에 위치시켜 $R^2$ 값이 증가되는 영향을 감소시킴

$Adjusted\ R^2 = 1 - \cfrac{n-1}{(n-p-1)(1-R^2)}$

7) 회귀 분석의 종류

(1) 단일 회귀 분석

종속변수에 영향을 주는 독립변수가 1개인 회귀 분석

(2) 다중 회귀 분석

종속변수에 영향을 주는 독립변수가 여러 개인 회귀 분석

다중공선성(Multicollinearity)

독립변수가 다른 여러개의 독립변수들로 잘 예측(설명)되는 경우

두 변수의 상관관계가 매우 높을 경우, 두 변수는 매우 유사한 정보를 가지고 있다고 볼 수 있다.

이런 경우 두 변수에는 다중공선성이 있다고 한다.

다중공선성 진단

분산팽창계수(Variance Ination Factor, VIF)
- 엄밀한 기준은 없으나 10보다 크면 다중공선성이 있다고 판단
- 5를 기준으로 하기도 함

다중 공선성 해결

VIF가 큰 독립변수를 제거 후 모델링

Gilbert