My Data Story
[회귀] 선형 회귀 가설 검정 : 회귀 진단 본문
◈ '회귀' 목차 ◈
6. 선형 회귀 가설 검정 : 회귀 진단
회귀 모델 생성 후, 선형 모델의 가정에 대해 검정하며 예측 설정에 중요한 통찰을 살펴볼 수 있다.
잔차 분석을 기본으로 선형 회귀 모델을 뒷받침하는 가정들을 검정하며 회귀 진단을 해볼 수 있다.
이런 단계는 직접적으로 예측 정확도를 다루는 것은 아니지만, 예측 설정에 중요한 통찰을 줄 수 있다.
1. 특잇값
소위 특잇값이라 부르는 극단값은 대부분 측정치에서 멀리 벗어난 값을 의미한다.
회귀에서 특잇값은 실제 y 값이 예측된 값에서 멀리 떨어져 있는 경우를 말한다.
잔차를 표준 오차로 나눈 값을 표준화 잔차라 하는데, 이 값을 조사해 특잇값을 발견할 수 있다.
특잇값을 정상값들과 구분하는 데에 통계 이론은 없다. 어떤 관측값을 특잇값이라고 부르려면 다수 데이터로부터 얼마나 떨어져 있어야 하는 지에 대한 (임의의) 경험칙이 존재할 뿐이다.
예를 들어 상자 그림에서 상자 경계선 바깥에 위치한 점들을 특잇값으로 보는 것 처럼, 회귀에서는 표준화 잔차가 특잇값을 검출하는 데 주로 사용된다. 표준화 잔차는 곧 '회귀선으로부터 떨어진 정도를 표준오차 개수로 표현한 값' 정도로 해석할 수 있다.
사실 빅데이터의 경우, 새로운 데이터를 예측하기 위한 회귀 분석에서 특잇값이 그렇게 문제가 되지는 않는다.
그러나 특잇값을 찾는 것이 주목적인 특잇값 검출의 경우 이 값들이 매우 중요해진다.
2. 영향값
회귀 모형에서 제외됐을 때 모델에 중요한 변화를 가져오는 값을 주영향관측값이라고 한다.
이는 잔차가 크다고 해서 모두 영향값이 되는 것은 아니다.
아래 그래프는 영향값을 잘 보여주는 사례이다.
그 데이터 값은 회귀 결과에 큰 영향을 미치지만, 원래 회귀에서 큰 특잇값으로 나타난 것은 아니다.
이 데이터 값은 회귀에 높은 레버리지를 가진 것으로 볼 수 있다.

표준화 잔차 외에도 회귀 분석에서 단일 레코드의 영향력을 결정하는 몇 가지 지표가 있다.
일반적인 척도는 햇 값으로 2(n+1)/m 이상의 값들은 레버리지가 높은 데이터 값을 나타낸다. 또 다른 측정 지표는 쿡 거리로 레버리지와 잔차의 크기를 합쳐서 영향력을 판단한다. 경험칙에 따르면 쿡의 거리가 4/(m-n-1) 보다 크면 영향력이 높다고 보는 편이다.
influence plot 또는 bubble plot 은 표준화잔차, 햇 값, 쿡의 거리를 모두 한 그림에 표현한다.
회귀 모형을 통해 새로운 데이터 예측하는 것이 목적이라면, 영향력이 큰 관측데이터를 확인하는 작업은 데이터 크기가 작을 경우에만 유용하다. 데이터가 클 경우, 어떤 한 값이 회귀 방정식에 엄청난 변화를 가져오기란 쉽지 않다. 물론 이상 검출이 목적이라면 높은 영향력의 값들을 찾는 것이 큰 도움이 된다.
3. 이분산성, 비정규성, 오차간 상관
회귀 계수를 추정할 때 보통최소제곱 추정을 사용하는데,
보통최소제곱 추정은 다양한 분포 가정하에서 편향성 없이 경우에 따라 '최적'이라 할 수 있는 추정을 제공하기 때문에 대부분의 문제에서 데이터 과학자는 잔차 분포에 너무 많은 신경을 쓸 필요는 없다.
잔차 분포는 주로 공식적인 통계적 추론(가설 검정 및 p값)의 유효성과 관련이 있으므로 예측 정확도를 중요하게 생각하는 데이터 과학자들에게는 별로 중요하지 않다. 형식적 추론이 완전히 유효하려면 잔차는 1) 동일한 분산을 가지며 2) 정규분포를 따르고 3) 서로 독립이라는 가정이 필요하다. 데이터 과학자가 신경쓰는 한 가지는 잔차에 대한 가정을 기반으로 예측값에 대한 신뢰구간을 계산하는 방법이다.
데이터 분석가 관점에서 잔차에 대한 3가지 가정을 살펴보자.
(1) 동일한 분산 ★
이분산성은 다양한 범위의 예측값에 따라 잔차의 분산이 일정하지 않은 것을 의미한다. 다시 말해, 어떤 부분에서는 오차가 다른 데보다 훨씬 크게 나타나는 것을 말한다. 이는 데이터 과학자 입장에서 예측값이 어떤 경우에는 맞고 어떤 경우에는 틀리다는 것을 나타내기 때문에, 모델이 불완전하다는 것을 알려준다. Residual Plot 통해 확인해본다.
(2) 정규성
잔차가 정규분포를 따르는 지 확인하기 위해, 표준화 잔차에 대한 히스토그램이나 QQ-Plot 을 그려 확인해본다.
(3) 독립성
오차의 독립성 확인은 시간에 따라 데이터를 수집하는 경우 특히 그렇다.
시계열 데이터를 다루는 회귀 분석에서 유의미한 자기 상관이 있는 지를 탐지하는데 더빈-왓슨 통계량을 사용할 수 있다.
그렇다면, 회귀가 분포 가정 중 한 가지만 위반해도 신경써야 할까?
데이터 과학에서 가장 중요한 것은 보통 예측의 정확도이기 때문에, 잔차의 이분산성은 검토해볼만 하다. 검토 결과 모델이 설명하지 못하는 데이터가 있음을 발견할 수 있을지 모르기 때문이다.
4. 편잔차 그림과 비선형성 ★
편잔차 그림은 예측 모델이 예측 변수와 결과 변수 간의 관계를 얼마나 잘 설명하는 지 시각화하는 방법이다.
특잇점 검출과 함께 이것은 데이터 과학자들에게 가장 중요한 모델 진단 방법이다.
편잔차 그림의 기본 개념은 하나의 예측 변수와 결과 변수 사이의 관계를 모든 다른 예측 변수로부터 분리하는 것이다.
편잔차는 단일 예측 변수를 기반으로 한 예측값과 전체를 고려한 회귀식의 실제 잔차를 결합하여 만든 결과이다.

다음 그래프는 편잔차 그림 예시이다.
편잔차는 SqFtToLiving 변수가 주택 가격에 얼마나 영향을 미치는 지 보여준다.
(실선이 선형 회귀선이고 점선은 편잔차에 대한 평활 곡선이다. )

위 그림을 통해 SqFtToLiving 변수와 가격 사이의 관계가 비선형임을 확인할 수 있다.
편잔차 그림을 사용하여 각 회귀 항의 적합성을 정량적으로 평가할 수 있고, 대체 모델에 대한 아이디어를 얻을 수 있다.
'Machine Learning > 2. 지도 학습 알고리즘' 카테고리의 다른 글
[회귀] 규제가 있는 선형 회귀 (0) | 2021.08.06 |
---|---|
[회귀] 비선형 회귀 - 다항 회귀, 스플라인 회귀 (0) | 2021.08.06 |
[회귀] 선형 회귀 모델 해석 (0) | 2021.08.06 |
[회귀] 선형 회귀로 새로운 데이터 예측 (0) | 2021.08.06 |
[회귀] 선형 회귀 모델 평가 및 모델 선택 (0) | 2021.08.06 |