My Data Story

[회귀] 선형 회귀 개념 본문

Machine Learning/2. 지도 학습 알고리즘

[회귀] 선형 회귀 개념

Hwasss 2021. 8. 6. 09:30
728x90

◈  '회귀' 목차 

1. 선형 회귀 개념

     선형 회귀 종류에 대해 살펴보고 선형 회귀 모형에 대한 통계적 가정을 살펴보자.

2. 선형 회귀 계수 모델 훈련

3. 선형 회귀 모델 평가 및 모델 선택

4. 선형 회귀로 새로운 데이터 예측

5. 선형 회귀 모델 해석

6. 선형 회귀 가설 검정 : 회귀 진단

7. 비선형 회귀 - 다항 회귀, 스플라인 회귀

8. 규제가 있는 선형 회귀


1. 선형 회귀 

선형 회귀 모델은 예측 변수X와 응답 변수 Y의 크기 사이에 어떤 관계가 있는 지 선형함수로 모델링한다. 

 

상관관계도 두 변수가 서로 어떤 관계인지를 보여주는 방법 중 하나이지만

상관관계는 두 변수 사이의 전체적인 관련 강도를 측정하는 것이라면, 회귀는 관계 자체를 정량화하는 방법이다.

 

선형 회귀 모델은 입력 특성의 가중치 합과 편향이라는 상수를 더해 예측값(적합값)을 만든다. 

 

1.1 단순 선형 회귀 

단순 선형 회귀느 하나의 예측 변수 X로부터 선형 관계를 이용해서  변수 Y를 예측한다.

다중 선형 회귀를 통해 구한 적합값(예측값)은 다음과 같다.

 

 

1.2 다중 선형 회귀 

다중 선형 회귀 모델은 예측 변수 X가 여러 개를 이용해 변수 Y를 예측한다.  

다중 선형 회귀는 더 이상 직선의 형태는 아니지만, 각 계수와 그 변수들 사이의 관계는 여전히 선형이므로 선형모형이다.

다중 선형 회귀를 통해 구한 적합값(예측값)은 다음과 같다.

 

 

2. 선형 회귀 모형에 대한 가정

2.1 가정을 하는 이유

회귀 분석의 목적은 예측 변수 X와 결과 변수 Y관계를 선형적으로 나타내고자 하는 것이다. 

하지만 선형적으로 관계를 표현하는 것잉 현실적으로 힘들기 때문에, 여러 가정을 통해 선형식을 표현한다.

 

2.2 가정의 종류

첫 번째는 예측 변수 X와 결과 변수Y의 선형 관계에 대한 가정이다.

X와 Y간의 선형 관계는 산점도를 통해 확인이 가능하다. 

산점도 확인 결과, 선형 관계가 아니면 X^2 과 같은 다항 회귀를 고려하거나 변수 변환 작업이 필요하다. 

 

 

두 번째는 예측 변수 X는 오차 없이 측정 가능한 수학적 변수이고 결과 변수 Y는 오차를 수반한 확률 변수에 대한 가정이다.

 

 

세 번째는 오차의 정규성, 독립성, 등분산성에 대한 가정이다. 

 

 

이때 오차는 우연 오차로 측정하는 사람이 도저히 조정할 수 없는 오류를 뜻한다. 

오차는 검정할 수 없기에, 잔차를 사용한다. 

 

 

오차의 정규성

오차항은 정규 분포를 따른다는 가정이다. 

 

회귀 모형을 추정한 후, 회귀 모형이 잘 맞는지 모형에 대한 검정, 계수에 대한 검정을 필요로 한다. 

모형 검정, 계수 검정 등의 가설 검정을 하기 위해서는 분포 가정이 필요하다. 

이때 사용하기 위한 가정이 정규성 가정이다. 

 

주로 QQ-Plot 을 통해 오차의 정규성을 확인한다. 

 

더보기

QQ Plot 이 그려지는 원리

- 그래프가 이론적으로 정규분포하다면, 평균을 중심으로 퍼져있는 데이터 분포 (간격)이 표준화한 후 Z값 분포와 일치할 것 이다. QQ Plot 의 Y축은 실제 잔차의 분포를 표현 X축은 정규 분포를 표현하여, 잔차의 정규성에 대해 검증한다. 

 

오차의 독립성

오차항은 서로 독립이라는 가정이다. 

 

오차항이 서로 상관관계 있다면, 추정된 회귀식으로 설명되지 않는 부분에서 다른 어떤 관계가 있다는 것을 의미한다. 

주로 Residual plot 또는 Durbin-Watson 통계량을 통해 오차의 독립성을 확인한다. 

Durbin-Watson 통계값이 1.5~2.5이면 No Auto Correlation 하다고 판단한다.

 

 

오차의 독립 가정 위배 시, 자기 상관 관계를 갖는다고 볼 수 있다. (다중 공선성)

변수의 차분을 통해서 해결할 수 있다.

주로 시계열에서 독립성을 가정한다. 

 

 

오차의 등분산성

오차의 분산이 예측 변수 값에 상관없이 일정하다는 가정이다. 

 

정규성 가정과 마찬가지로, 추후 회귀 모형의 검정에 있어 검정을 용이하게 하기 위해 필요한 가정이다. 

주로 Residaul plot을 통해 등분산성을 확인한다.

 

오차의 등분산성 가정 위배 시, 이분산성이라 하여 추정량의 분산이 커져 최소 분산을 갖지 못한다. 

이를 해결하기 위해서 WLS(Weight Least Sqaure), GLS를 활용한다. 

 

 

 

이렇게 잔차 가정에 위배될 경우, 3가지로 수정해서 다시 분석해볼 수 있다. 

▶  Y에 대해 log 또는 root 를 씌워준다. 

▶ 이상치를 제거해본다.

▶  다항 회귀 분석 (비선형 회귀 분석) 을 고려해본다.