[adsp] 회귀 분석 정리(가정, 종류, 검정, 변수선택법 그리고 고려사항들)
목차
1. 회귀분석
하나 또는 여러 개의 독립변수(x)가 종속변수(y)에 미치는 영향을 추정하는 통계 기법이다.
2. 회귀분석 종류
1) 단순선형회귀
2) 다중선형회귀
3) 로지스틱회귀
4) 다항회귀
5) 비선형회귀
2. 회귀분석의 가정
1) 회귀분석의 가정
- 선형성:
선형회귀분석에서 독립변수와 종속변수는 선형관계여야 한다.
(예외적으로 다항회귀/비선형회귀는 선형성을 갖지 않아도 된다.)
산점도를 통해 변수 간의 선형관계를 파악할 수 있다.
만약 독립변수와 종속변수 간에 선형관계가 아니라면 로그 변환을 통해 직선을 만들거나 비선형회귀분석을 하면 된다.
- 비상관성
다중선형회귀일 경우, 독립변수들 간에 상관관계가 없어야 한다. 즉, 다중공선성 문제를 해결해야 한다.
그리고 잔차들끼리 상관관계가 없어야 한다.
다음은 오차항에 대한 가정들(독립성, 등분산성, 정규성)이다.
오차는 알 수 없기 때문에 잔차를 통해 가정을 만족하는지 확인할 수 있다.
*오차와 잔차의 차이
오차(error)는 모집단으로부터 구한 회귀식의 예측값과 실제 관측값 간 차이를,
잔차(residual)는 표본집단으로부터 구한 회귀식의 예측값과 실제 관측값 간 차이를 의미한다.
즉, 오차와 잔차는 대상이 모집단/표본집단이냐에 따라 구분되는 개념이다.
- 등분산성
잔차들의 분산이 같다는 의미로 즉, 잔차들이 고르게 분포해야 한다는 의미이다.
등분산성을 만족하지 못할 경우 회귀선이 어떤 추세를 띄지 않고 뭉치거나 퍼진 모양이 된다.
등분산성을 만족하도록 log변환이나 루트 변환을 취하거나 x^2같은 항을 추가하여 오차들의 분산을 고르게 만들 수 있다.
- 정규성(정상성)
잔차가 정규분포 형태를 띄는 경우 정규성을 만족한다고 한다.
Q-Q plot에서 잔차가 오른쪽으로 상승하는 형태라면 정규성을 만족한다고 볼 수 있다.
shapiro-wilk(샤피로-윌크) 검정을 통해 오차항이 정규분포를 따르는지 알아볼 수 있다.
- 독립성:
단순선형회귀에서는 잔차와 독립변수 간에 서로 독립이어야 한다.
다중선형회귀에서는 독립변수들 간에 상관성이 없이 서로 독립이어야 한다.
(독립변수 간에 서로 독립이 아니라면 다중공선성이 존재 > 회귀 분석을 위해 제거해야 함)
오차항이 독립성을 만족하는지 더빈 왓슨(Durbin-Watson) 검정으로 알아볼 수 있다.
통계량이 2에 가깝다면 오차항이 자기상관(autocorrelation)이 없는 경우
통계량이 0에 가깝다면 양의 상관관계
통계량이 4에 가깝다면 음의 상관관계
즉, 더빈왓슨 통계량이 0이나 4에 가까울 경우 잔차들 간에 상관관계가 있어 독립성을 만족하지 못한다.
2) 다중선형회귀분석의 다중공선성
다중공선성이 존재해서는 안된다.
즉, 설명변수들 간에 강한 상관관계가 있어 선형관계가 존재한다면 회귀계수를 추정하기가 어려워진다.
결정계수(R^2)가 커서 회귀식의 설명력은 높으나 각 독립변수의 p-value값이 커서 개별 인자가 유의하지 않다면 다중공선성을 의심할 수 있다.
다중 공선성의 해결 방법들은 아래와 같다.
1) 변수 제거(상관관계가 높은 변수를 제거함) ex. 분산팽창요인(VIF)가 10보다 클 경우 선형관계가 강한 변수 제거
2) 변수 변환(독립변수들을 조합하여 새 변수를 만들거나 기존 변수를 변환함)
3) 릿지 회귀(회귀계수에 패널티를 부여하여 다중공선성 완화)
4) 주성분 회귀 (독립변수들의 주성분을 추출하여 회귀분석 진행)
3. 회귀모형의 유의성 검증
회귀모형(회귀식)에 대한 유의성 검증: f-검정
분산의 차이를 확인할 때 f-검정을 활용한다. 만약 분산의 차이가 크다면 회귀모형에서 회귀 계수가 크다.
회귀계수에 대한 유의성 검증: t-검정
t통계량이 크다면 분모에 해당하는 표준오차가 작아진다. 그리고 회귀계수도 커진다.
모형의 설명력: 결정계수(R^2)로 모형의 설명력을 판단한다.
결정계수는 0에서 1 사이의 값을 가지며, 값이 높을수록 회귀식의 설명력이 높다.
결정계수는 잔차제곱합(SSR)/전체제곱합(SST)으로 구한다.
설명력이 좋다는 의미는 데이터들이 회귀선에 밀접하게 분포하고 있다는 뜻이다.
단순선형회귀분석일 경우, 결정계수는 상관계수의 제곱과 같다.
*결정계수(R^2. Coefficient of Determination)
회귀 모형이 종속변수를 얼마나 설명하는지를 나타내는 계수
회귀선의 적합도를 평가하거나 종속변수에 대한 설명변수들의 설명력을 알고 싶을 때 사용한다.
- X와 Y 간의 상관관계가 클수록 결정계수는 1에 가까워진다.
- 총변동 중에서 회귀선에 의해 설명되는 변동 비율(=SSR/SST)을 뜻한다.
- R^2=0.4라면 종속변수의 변동은 독립변수의 변동에 의해 약 40% 설명된다고 해석할 수 있다.
4. 단순회귀분석
1) 회귀 계수의 추정
최소제곱법을 통해 회귀계수를 추정하고 추정된 회귀계수로 추세선을 그려 회귀식을 예측한다.
*최소제곱법(OLS. Ordinary Least Square)
회귀식에 의한 예측값과 실제 관측값간의 차이를 잔차라고 하는데,
이 잔차의 제곱합이 최소가 되는 절편과 회귀계수를 구하는 방법이다.
점선은 회귀식을 의미하며 회귀식 위에 점은 실제값을 의미한다.
실선은 회귀식을 찾는데 사용한 모든 데이터들의 y값들의 평균을 뜻한다. SSE는 실제값과 예측값 간의 차이를, SSR은 예측값과 평균값 간의 차이를, SST는 실제값과 평균값 간의 차이를 의미한다.
SSE(오차제곱합): 모형이 설명하지 못하는 부분
SSR(잔차제곱합): 모형이 설명되는 부분
SST(전체제곱합): 모형의 전체 변동
5. 회귀분석의 변수선택법
전진선택법: 절편만 있는 상수 모형에서 중요한 변수부터 차례로 모형에 추가하는 방법이다.
이해하기가 쉽고 변수가 많을 경우 활용하기 좋다. 하지만 변수 값의 작은 변동에도 결과가 달라져 안정성이 부족하다.
후진제거법: 모든 독립변수를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방식이다.
전체 변수들의 정보를 이용할 수 있다는 장점이 있지만 변수가 많은 경우 활용이 어려워 안정성이 부족하다.
단계별방법: 전진선택법으로 변수를 추가하면서 새롭게 추가된 변수로 인해 기존 변수의 중요도가 약해졌다면 해당변수를 제거하는 방법. 단계별로 변수를 추가 또는 삭제하면서 더 이상 없을 경우 중단한다.
* 변수선택의 성능 지표
회귀 모형에서 독립 변수가 많아질수록 설명력은 높아지나 과적합이 발생할 수 있다.
따라서 AIC와 BIC를 통해 변수 수가 많아진 모형에 패널티를 부여해서 최적의 회귀식을 도출할 수 있도록 한다.
1) AIC: MSE에서 변수 수만큼 패널티를 부여하는 지표
2) BIC: 표본이 커질때 부정확해진다는 AIC의 단점을 보완한 지표
6. 회귀 분석 시 고려 사항들
적합한 회귀 모형을 찾은 후 점검해야 할 사항들은 아래와 같다.
1) 모형이 통계적으로 유의미한가?
f통계량을 확인한다.
유의수준 5% 이하에서 f 통계량의 p-value가 0.05보다 작으면 회귀식은 통계적으로 유의하다.
2) 회귀계수들이 유의미한가?
회귀 계수의 t통계량과 p-value 또는 신뢰구간을 확인한다.
3) 모형이 얼마나 설명력을 갖는가?
결정 계수를 확인한다.
4) 모형이 데이터를 잘 적합하고 있는가?
잔차를 그래프로 시각화하여 회귀 진단
5) 데이터가 아래 회귀모형의 가정을 잘 만족시키는가?
선형성 / 독립성 / 등분산성 / 비상관성 / 정규성(정상성)
참고
https://post.naver.com/viewer/postView.nhn?volumeNo=27436669&memberNo=22344892
http://www.datamarket.kr/xe/index.php?mid=board_mXVL91&document_srl=7144&order_type=desc
https://hipster4020.tistory.com/105
https://velog.io/@bom8231/Adsp-3-4.-%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D