My Data Story
[군집] 활용 - 개요 본문
728x90
◈ '군집 활용' 목차 ◈
1. 개요
비지도 학습 중 군집의 다양한 활용에 대해 간략히 소개하겠다.
컴퓨터 과학자 얀 르쿤이 한 말이 유명하다.
"지능이 케이크라면 비지도 학습은 케이크의 빵이고, 지도 학습은 케이크 위의 크림이고, 강화 학습은 케이크위의 체리입니다."
다른 말로 하면 이제 겨우 발을 담그기 시작한 비지도 학습에 큰 잠재력이 있다는 뜻이다.
1. 군집 활용
비슷한 샘플을 구별해 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 것이다.
이때 군집은 분류와 다르게 레이블이 없는 비지도 학습이다.
- 고객 분류
동일한 클러스터 내의 사용자가 좋아하는 컨텐츠를 추천하는 추천 시스템 - 데이터 분석
새로운 데이터 셋을 분석할 때 군집 알고리즘을 실행하고, 각 클러스터 별 분석하면 좋다. - 차원 축소 기법
한 데이터 셋에 군집 알고리즘을 적용하면 각 클러스터에 대한 샘플의 친화성 측정 가능하다.
각 샘플의 특성 벡터 X를 각 클러스터에 대한 친화성 벡터로 바꿀 수 있다.
다시 말해, k 개의 클러스터가 있다면 이 벡터는 k차원이 된다. - 이상치 탐지
모든 클러스터에 친화성이 낮은 샘플은 이상치일 가능성이 높다. 또는 부정 거래 감지에 활용된다. - 준지도 학습
레이블된 샘플이 적다면 군집을 수행하고 동일한 클러스터에 있는 모든 샘플에 레이블을 전파할 수 있다.
이 기법은 이어지는 지도 학습 알고리즘에 필요한 레이블이 크게 증가해 성능을 크게 향상 시킨다. - 검색 엔진
일부 검색 엔진은 제시된 이미지와 비슷한 이미지를 찾아준다.
데이터 베이스에 있는 모든 이미지에 군집 알고리즘을 적용해 비슷한 이미지는 동일한 클러스에 속하도록 한다.
사용자가 찾으려는 이미지를 제공하면 훈련된 군집 모델을 사용해 이미지의 클러스터를 찾는다. - 이미지 분할
색을 기반으로 픽셀을 클러스터로 모은다. 각 픽셀의 색을 해당 클러스터의 평균 색으로 바꾼다.
이는 이미지에 있는 색상의 종류를 크게 줄인다.
이렇게 하면 물체의 윤곽을 감지하기 쉬워져 물체 탐지 및 추적 시스템에 이미지 분할을 많이 활용한다.
클러스터에 대한 보편적인 정의는 없다.
실제로 상황에 따라 다르며 알고리즘이 다르면 다른 종류의 클러스터를 감지한다.
예를 들어, 어떤 알고리즘은 센트로이드라 부르는 특정 포인트를 중심으로 클러스터를 감지한다.
또 어떤 알고리즘은 샘플이 밀집되어 연속된 영역을 찾는다.
'Machine Learning > 3. 비지도 학습 알고리즘' 카테고리의 다른 글
[군집] 활용 - 이상치 탐지, 특이치 탐지 (0) | 2023.08.19 |
---|---|
[군집] 활용 - 이미지 분할, 전처리, 준지도 학습 (0) | 2023.08.19 |
[군집] 베이즈 가우시안 혼합 모델 (0) | 2023.08.19 |
[군집] 가우시안 혼합 모델 (0) | 2023.08.19 |
[군집] 스펙트럼 군집 (0) | 2023.08.19 |