목록전체 글 (68)
My Data Story
◈ '군집 활용' 목차 ◈ 1. 개요 2. 이미지 분할, 전처리, 준지도 학습 3. 이상치 탐지, 특이치 탐지 사이킷런에서 이상치 탐지와 특이치 탐지 전용으로 사용할 수 있는 가지 알고리즘을 살펴보자. 사이킷런에는 이상치 탐지와 특이치 탐지 전용으로 사용할 수 있는 몇 가지 알고리즘이 구현되어 있다. 이 알고리즘들은 임의의 모양을 가진 클러스터를 다룰 수 있다. 1. PCA 보통 샘플의 재구성 오차와 이상치의 재구성 오차를 비교하면 일반적으로 후자가 훨씬 크다. 이는 간단하고 종종 매우 효과적인 이상치 탐지 기법이다. PCA 외에도 inverse_transform() 메서드를 가진 다른 차원 축소 기법도 동일한 방법으로 이상치 탐지한다. 2. Fast-MCD(Minimum Covariance Determ..
◈ '군집 활용' 목차 ◈ 1. 개요 2. 이미지 분할, 전처리, 준지도 학습 사이킷런에서 군집을 활용해 이미지 분할, 데이터 전처리, 준지도 학습에 활용하는 방법에 대해 알아보자. 3. 이상치 탐지, 특이치 탐지 1. 군집을 사용한 이미지 분할 이미지 분할은 이미지를 세그먼트 여러 개로 분할하는 작업이다. 시맨틱 분할에서는 동일한 종류의 물체에 속한 모든 픽셀은 같은 세그먼트에 할당한다. 예를 들어 자율 주행 자동차의 비전 시스템에서 보행자 이미지를 구성하는 모든 픽셀을 '보행자' 세그먼트에 할당될 것이다. 이 경우 각 보행자는 다른 세그먼트가 될 수 있다. 여기서는 훨씬 쉬운 작업인 색상 분할을 수행해보도록 하겠다. from matplotlib.image import imread image = imr..
◈ '군집 활용' 목차 ◈ 1. 개요 비지도 학습 중 군집의 다양한 활용에 대해 간략히 소개하겠다. 2. 이미지 분할, 전처리, 준지도 학습 3. 이상치 탐지, 특이치 탐지 컴퓨터 과학자 얀 르쿤이 한 말이 유명하다. "지능이 케이크라면 비지도 학습은 케이크의 빵이고, 지도 학습은 케이크 위의 크림이고, 강화 학습은 케이크위의 체리입니다." 다른 말로 하면 이제 겨우 발을 담그기 시작한 비지도 학습에 큰 잠재력이 있다는 뜻이다. 1. 군집 활용 비슷한 샘플을 구별해 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 것이다. 이때 군집은 분류와 다르게 레이블이 없는 비지도 학습이다. 고객 분류 동일한 클러스터 내의 사용자가 좋아하는 컨텐츠를 추천하는 추천 시스템 데이터 분석 새로운 데이터 셋을 분석할 ..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 베이즈 가우시안 혼합 모델에 대해 이해하고, 사이킷런에서 구현해보자. 1. 베이즈 가우시안 혼합 모델 베이즈 가우시안 혼합 모델에서 클러스터의 파라미터(가중치, 평균, 공분산 행렬 등)는 더 이상 고정된 모델 파라미터가 아니고, 클러스터 할당 처럼 잠재 확률 변수로 취급된다. 따라서 이제 z는 클러스터 파라미터와 클러스터 할당을 모두 포함하게 된다. ■ 베타 분포 베타 분포는 고정된 범위 안에 놓인 값을 가진 확률 변수를 모델링할 때 자주 사용된다. 이 모델에서 클러스터 가중치는 모두 0에서..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 가우시안 혼합 모델과 EM 알고리즘에 대해 이해하고, 사이킷런에서 GMM 구현 및 활용하는 방법을 알아보자. 10. 베이즈 가우시안 혼합 모델 1. 가우시안 혼합 모델 가우시안 혼합 모델은 샘플이 파라미터가 알려지지 않은 여러 개의 혼합된 가우시안 분포에서 생성되었다고 가정하는 확률 모델이다. 하나의 가우시안 분포에서 생성된 모든 샘플은 하나의 클러스터를 형성한다. 일반적으로 이 클러스터는 타원형이다. 각 클러스터는 타원의 모양, 크기, 밀집도, 방향이 다르다. 샘플이 주어지면 가우시안 분포 중 하나에서 생성되었다는 것을 안..
◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 스펙트럼 군집 알고리즘에 대해 알아보자. 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. 스펙트럼 군집 step1 샘플 사이의 유사도 행렬을 받아 저차원 임베딩을 만든다. (즉 차원 축소한다.) step2 그다음 이 저차원 공간에서 또 다른 군집 알고리즘을 사용한다. (사이킷런에서는 k-평균 사용) 스펙트럼 군집은 복잡한 클러스터 구조를 감지하고 graph cut을 찾는 데 사용할 수 있다. 예를 들어 소셜 네트워크에서 친구의 클러스터를 찾는데 사용된다. 이 알고리즘은 샘플 개수가 많으면 잘 적용되지 않고 클러스터 크기가 매우 다르면..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 유사도 전파 군집 알고리즘에 대해 알아보자. 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. 유사도 전파 이 알고리즘은 투표 방식을 사용한다. 샘플은 자신을 대표할 수 있는 비슷한 샘플에 투표한다. 만약 스스로가 자기 자신에게 투표하게 되면 클러스터의 중심이 된다. 알고리즘이 수렴하면 각 대표와 투표한 샘플이 하나의 클러스터로 감지할 수 있다. 유사도 전파는 클러스터의 갯수를 미리 선정하지 않아도 된다는 점에서 가장 큰 장점이 있다. 유사도 전파는 크기가 다른 여러 개의 클러스터를 감지할 수 있지만, 알고리즘의 복잡도는 O(m^2) ..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH BIRCH 군집 알고리즘에 대해 알아보자. 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. BIRCH BIRCH는 특별히 대규모 데이터 셋을 위해 고안되었다. BIRCH는 한 번만 데이터에 대해 검사하여 클러스터를 만들며 새로운 데이터에 대해 클러스터링할 때, 모든 데이터나 클러스터를 스캔하지 않고도 클러스터링할 수 있다. 훈련 과정에서 새로운 샘플을 클러스터에 빠르게 할당할 수 있는 정보를 담은 트리 구조 CF-tree 를 만든다. 특성 개수가 너무 많지 않다면(20개 이하) 배치 k-평균보다 빠르고 비슷한 결과를 만든다. 설정한 ..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 평균-이동 군집 알고리즘에 대해 알아보자. 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. 평균-이동 평균-이동은 임의의 포인트에서 시작해 특정 대역폭을 가지고 데이터가 모여 있는 곳으로 중심을 이동시키며 군집화를 수행한다. step1 원 반경을 설정해 각 샘플을 중심으로 하는 원을 그린다. step2 그 다음 원 안에 포함된 모든 샘플의 평균을 구한다. step3 원의 중심을 평균점으로 이동시킨다. step4 모든 원이 이동하지 않을 때까지 평균-이동을 계속한다(원의 중심이 포함된 샘플의 평균점일 때 까지) 평균-이동은 지역의 최대..