목록Machine Learning/3. 비지도 학습 알고리즘 (18)
My Data Story

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4.병합 군집 병합 군집 알고리즘에 대해 알아보자. 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. 병합 군집 ◎ from sklearn.cluster import AgglomerativeClsutering 병합 군집은 K평균보다 유연하고, 수치형 변수가 아니어도 쉽게 적용이 가능하다. 특잇점이나 비정상적인 그룹이나 레코드를 발견하는 데 더 민감하다. 또한 직관적인 시각화가 가능하여 클러스터를 해석하기 수월하다. 병합 군집 알고리즘에 대해 살펴보자. 병합 군집은 인접한 클러스터 쌍을 연결한다. (처음에는 샘플 하나로 시작한다.) 병합된 클러스터 쌍..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN HDBSCAN 알고리즘에 대해 알아보자. 4. 병합 군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. HDBSCAN 알고리즘 DBSCAN과 비교했을 때, epsilon은 필요 없다. Minpst 만 존재한다. step1. Transform the space 데이터 셋의 값들을 density/sparcity 의미를 포함한 값으로 변환한다. (muutal reachability distance 값) step2. MST 생성 밀집도가 높은 cluster 찾기 위해, 모든 point 간의 d_m_reach-k(p,q) 값 관련 데이터 셋을 얻었다. d..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN DBSCAN 알고리즘에 대해 이해하고 사이킷런에서 DBSCAN을 구현해보자 3. HDBSCAN 4. 병합 군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. DBSAN 알고리즘 이 알고리즘은 밀집된 연속 지역을 클러스터로 정의한다. step1 (자기 자신을 포함해) ∈(epsilon) 만큼의 이웃 내에 적어도 min samples 이 있다면 이를 핵심 샘플로 간주한다. 즉 핵심 샘플은 밀집된 지역에 있는 샘플이다. step2 핵심 샘플의 이웃에 있는 모든 샘플은 동일한 클러스터에 속한다. 핵심 샘플의 이웃에 대해서도 ∈(epsilon) 거리 조사하여 이웃의 이웃으로..

◈ '군집' 목차 ◈ 1. K-평균 K-평균 알고리즘에 대해 이해하고, 센트로이드 초기화, 최적의 클러스터 개수 선정하는 방법 등에 대해 알아보자. 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. K-평균 K-평균은 데이터를 K개의 클러스터로 나눈다. 이때 할당된 클러스터의 평균과 포함된 데이터들의 거리 제곱합이 최소가 되도록 한다. K평균은 각 클러스터의 크기가 동일하다는 보장은 없지만 클러스터끼리 최대한 멀리 떨어지도록 한다. 사이킷런에서 KMeans 을 통해 K-평균 모델을 구현할 수 있다. 알고리즘이 찾을 클러스터 개수 K를 지정하면, 각 클러스터의 중심을 찾고..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 6. t-SNE 사이킷런은 다양한 차원 축소 알고리즘을 제공한다. 다음은 그 중 널리 사용되는 알고리즘이다. 1. 랜덤 투영 random projection ◎ from sklearn.random_projection import SparseRandomProjection 랜덤한 선형 투영을 사용해 데이터를 저차원 공간으로 투영한다. 이런 랜덤 투영이 실제로 거리를 잘 보존한다고 한다. 차원 축소 품질은 샘플의 수, 목표 차원 수에 따라 다르다. 하지만 놀랍게도 초기 차원 수에는 의존적이지 않다. ▶ sparseRandomProjection클래..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 지역 선형 임베딩이 무엇인지 그리고 알고리즘이 어떻게 동작하는 지 살펴보자. 6. t-SNE 1. LLE 지역 선형 임베딩 Locally Linear Embedding 은 또 다른 강력한 비선형 차원 축소 기술이다. LLE는 이전 알고리즘처럼 투영에 의존하지 않는 매니폴드 학습이다. LLE는 좁은 범위에서 구축한 선형 모델을 연결하면 다양체, 매니폴드를 구현할 수 있다는 알고리즘이다. 간단히 말해, LLE는 먼저 각 훈련 샘플이 가장 가까운 이웃에 얼마나 선형적으로 연관되어 있는 지 측정한다. 그런 다음 국부적인 관계가 가장 잘 보존되는 훈..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 사이킷런에서 커널 PCA 를 구현하고 적절한 하이퍼파라미터 선정 방법에 대해 알아본다. 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 6. t-SNE 1. 커널 PCA 이전까지 살펴본 PCA는 SVD 알고리즘을 활용한 방법이고 커널 PCA 는 SVM 때 처럼 고차원에 보낸 듯한 효과를 내어 PCA를 적용한다. 커널 PCA 를 적용해 차원 축소를 위한 복잡한 비선형 투형을 수행할 수 있다. 이 기법은 투영한 후 샘플의 군집을 유지하거나 꼬인 매니폴드에 가까운 데이터셋을 펼칠 때도 유용하다. 2. KernelPCA 사이킷런에서 KernelPCA 를 통해 커널 PCA 모델을 구현할 수 있다...

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA PCA, 랜덤 PCA, 점진적 PCA 에 대해 살펴보고, 적절한 축소 차원의 수를 결정하는 방법과 PCA 활용에 대해 알아보자. 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 6. t-SNE PCA 주성분 분석은 가장 인기 있는 차원 축소 알고리즘이다. 데이터에 가장 가까운 초평면을 정의한 다음, 데이터를 이 평면에 '투영' 시킨다. 1. PCA 알고리즘 step1. 주성분 찾기 투영하기 전에 올바른 초평면을 선택해야 한다. 올바른 초평면은 분산이 최대로 보존되는 축에 투영한 것이다. 이는 분산이 최대로 보존되는 축을 선택하는 것이 정보가 적게 손실되기 때문이다. 다시 말해, 원본 데이..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 차원의 저주를 살펴보고, 차원 축소하는 2가지 방법 투영, 매니폴드의 컨셉에 대해 알아보자. 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 6. t-SNE 1. 차원의 저주 많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천 심지어 수백만 개의 특성을 가지고 있다. 이런 많은 특성은 훈련을 느리게 할 뿐만 아니라, 좋은 솔루션을 찾기 어렵게 만든다. 이런 문제를 종종 차원의 저주라고 한다. 훈련 세트의 차원이 클수록 과대 적합 위험이 커진다. 이론적으로 차원의 저주를 해결하는 방법은 훈련 샘플의 밀도가 충분히 높아질 때까지 훈련 세트의 크기를 키우는 것이다. 하지만 불행히도 차원의 수가 ..