My Data Story
[분류] 선형판별분석(LDA) 본문
◈ '분류' 목차 ◈
2. 선형판별분석(LDA)
판별 분석(LDA) 알고리즘을 통한 분류 과정에 대해 살펴보자.
판별 분석은 초창기의 통계 분류 방법이다.
판별 분석에는 여러 가지 기법이 있지만 그 중 가장 일반적으로 사용되는 것은 선형판별분석이다.
트리 모델이나 로지스틱 회귀와 같은 더 정교한 기법이 출현하면서 이후로는 LDA를 그렇게 많이 사용하지 않는다.
하지만 여전히 일부 응용 분야에서 LDA를 사용하고 있으며, 주성분 분석과 같이 아직도 많이 사용되는 다른 방법들과도 연결된다. 또한 판별분석은 예측 변수들의 중요성을 측정하거나 효과적으로 특징을 선택하는 방법으로도 사용된다.
cf. 선형판별분석과 약자가 같은 잠재 디리클레 할당과 혼동하지 않도록 주의하자. 잠재 디리클레 할당은 텍스트와 자연어 처리에 사용되는 방법으로 선형판별분석과 아무런 관련이 없다.
1. 피셔의 선형 판별
기술적으로 판별 분석은 보통 예측 변수가 정규 분포를 따르는 연속적인 변수라는 가정이 있지만, 실제로는 정규 분포를 벗어나거나 이진 예측 변수에 대해서도 잘 동작한다. 다시 말해, 판별 분석은 예측 변수든 결과 변수든 연속형이든 범주형이든 상관없이 잘 작동한다.
피셔의 선형판별은 그룹 안의 편차와 다른 그룹 간의 편차를 구분한다.
구체적으로 레코드를 두 그룹으로 나누는 방법을 찾기 위해, LDA는 '내부' 제곱합 (그룹 안의 변동성 측정) 에 대한 '사이' 제곱합(두 그룹 사이의 편차를 측정)의 비율을 최대화하는 것을 목표로 한다.
두 개의 연속형 변수 X1, X2 를 사용하여 이진 결과 변수 Y를 예측하려는 분류 문제가 있다.
LDA 는 Y값에 따른 두 그룹의 데이터를 잘 구분하는 선형 결합을 찾고자 한다.
즉 Y=0 에 속하는 (X1, X2) 데이터들과 Y=1에 속하는 (X1, X2) 데이터들을 잘 구분하는 선형 결합 w1X1 + w2X2 을 찾고자 한다.
결국 이 선형 결합은 '사이 제곱합'/'내부 제곱합'의 비율을 최소화하는 선형 결합이다.
'사이 제곱합'의 각 값은 두 그룹 평균 사이의 거리 제곱을 말하며, '내부 제곱합'은 공분산 행렬에 의해 가중치가 적용된 각 그룹 내의 평균을 주변으로 퍼져 있는 정도를 나타낸다. 직관적으로 사이 제곱합을 최대화하고 내부 제곱합을 최소화하는 것이 두 그룹 사이를 가장 명확하게 나누는 방법이다.
위 내용에 대한 설명을 아래 그림으로 정리할 수 있겠다.

2. 판별 분석의 확장
지금까지는 예측 변수가 두 개인 경우에 대해서만 이야기했지만, LDA는 예측 변수가 많아도 잘 동작한다. 단지, 제한 요소가 있다면 데이터 개수이다. 예측 변수에 대해 충분한 수의 레코드가 있어야 공분산을 계산할 수 있기 때문이다. 하지만 데이터 과학 응용 분야에서는 일반적으로 문제가 되지 않는다.
다음은 이차 판별 분석이다. 기본 판별 분석와 다른 형태가 있는데, 그 중 가장 많이 알려진 것이 이차판별분석 QDA 이다. QDA는 이름과 달리 여전히 선형판별함수를 사용한다. LDA와 가장 큰 차이점은 LDA는 Y=0 인 그룹과 Y=1 인 그룹의 공분산 행렬이 동일해야 한다는 가정을 필요로 한다는 점이다. QDA에서는 이 두 그룹이 서로 다른 공분산을 갖을 수 있다. 실무적으로는 대부분의 경우 별 차이 없다.
'Machine Learning > 2. 지도 학습 알고리즘' 카테고리의 다른 글
[분류] 소프트맥스 회귀 (0) | 2021.08.06 |
---|---|
[분류] 로지스틱 회귀 (0) | 2021.08.06 |
[분류] 나이브 베이즈 (0) | 2021.08.06 |
[회귀] 규제가 있는 선형 회귀 (0) | 2021.08.06 |
[회귀] 비선형 회귀 - 다항 회귀, 스플라인 회귀 (0) | 2021.08.06 |