목록전체 글 (68)
My Data Story

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN 4.병합 군집 병합 군집 알고리즘에 대해 알아보자. 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. 병합 군집 ◎ from sklearn.cluster import AgglomerativeClsutering 병합 군집은 K평균보다 유연하고, 수치형 변수가 아니어도 쉽게 적용이 가능하다. 특잇점이나 비정상적인 그룹이나 레코드를 발견하는 데 더 민감하다. 또한 직관적인 시각화가 가능하여 클러스터를 해석하기 수월하다. 병합 군집 알고리즘에 대해 살펴보자. 병합 군집은 인접한 클러스터 쌍을 연결한다. (처음에는 샘플 하나로 시작한다.) 병합된 클러스터 쌍..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN 3. HDBSCAN HDBSCAN 알고리즘에 대해 알아보자. 4. 병합 군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. HDBSCAN 알고리즘 DBSCAN과 비교했을 때, epsilon은 필요 없다. Minpst 만 존재한다. step1. Transform the space 데이터 셋의 값들을 density/sparcity 의미를 포함한 값으로 변환한다. (muutal reachability distance 값) step2. MST 생성 밀집도가 높은 cluster 찾기 위해, 모든 point 간의 d_m_reach-k(p,q) 값 관련 데이터 셋을 얻었다. d..

◈ '군집' 목차 ◈ 1. K-평균 2. DBSCAN DBSCAN 알고리즘에 대해 이해하고 사이킷런에서 DBSCAN을 구현해보자 3. HDBSCAN 4. 병합 군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. DBSAN 알고리즘 이 알고리즘은 밀집된 연속 지역을 클러스터로 정의한다. step1 (자기 자신을 포함해) ∈(epsilon) 만큼의 이웃 내에 적어도 min samples 이 있다면 이를 핵심 샘플로 간주한다. 즉 핵심 샘플은 밀집된 지역에 있는 샘플이다. step2 핵심 샘플의 이웃에 있는 모든 샘플은 동일한 클러스터에 속한다. 핵심 샘플의 이웃에 대해서도 ∈(epsilon) 거리 조사하여 이웃의 이웃으로..

◈ '군집' 목차 ◈ 1. K-평균 K-평균 알고리즘에 대해 이해하고, 센트로이드 초기화, 최적의 클러스터 개수 선정하는 방법 등에 대해 알아보자. 2. DBSCAN 3. HDBSCAN 4. 병합군집 5. 평균-이동 6. BIRCH 7. 유사도 전파 8. 스펙트럼 군집 9. 가우시안 혼합 모델 10. 베이즈 가우시안 혼합 모델 1. K-평균 K-평균은 데이터를 K개의 클러스터로 나눈다. 이때 할당된 클러스터의 평균과 포함된 데이터들의 거리 제곱합이 최소가 되도록 한다. K평균은 각 클러스터의 크기가 동일하다는 보장은 없지만 클러스터끼리 최대한 멀리 떨어지도록 한다. 사이킷런에서 KMeans 을 통해 K-평균 모델을 구현할 수 있다. 알고리즘이 찾을 클러스터 개수 K를 지정하면, 각 클러스터의 중심을 찾고..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 6. t-SNE 사이킷런은 다양한 차원 축소 알고리즘을 제공한다. 다음은 그 중 널리 사용되는 알고리즘이다. 1. 랜덤 투영 random projection ◎ from sklearn.random_projection import SparseRandomProjection 랜덤한 선형 투영을 사용해 데이터를 저차원 공간으로 투영한다. 이런 랜덤 투영이 실제로 거리를 잘 보존한다고 한다. 차원 축소 품질은 샘플의 수, 목표 차원 수에 따라 다르다. 하지만 놀랍게도 초기 차원 수에는 의존적이지 않다. ▶ sparseRandomProjection클래..

◈ '차원 축소' 목차 ◈ 1. 투영, 매니폴드 2. PCA, 랜덤 PCA, 점진적 PCA 3. 커널 PCA 4. MDS, Isomap 5. 지역 선형 임베딩 LLE 지역 선형 임베딩이 무엇인지 그리고 알고리즘이 어떻게 동작하는 지 살펴보자. 6. t-SNE 1. LLE 지역 선형 임베딩 Locally Linear Embedding 은 또 다른 강력한 비선형 차원 축소 기술이다. LLE는 이전 알고리즘처럼 투영에 의존하지 않는 매니폴드 학습이다. LLE는 좁은 범위에서 구축한 선형 모델을 연결하면 다양체, 매니폴드를 구현할 수 있다는 알고리즘이다. 간단히 말해, LLE는 먼저 각 훈련 샘플이 가장 가까운 이웃에 얼마나 선형적으로 연관되어 있는 지 측정한다. 그런 다음 국부적인 관계가 가장 잘 보존되는 훈..

◈ '시계열 데이터 분석 절차' 목차 ◈ 1. 시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출 2. 시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리 3. 시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1) 4. 시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2) 5. 시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인 6. 시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단 레퍼런스 모델로 예측한 결과와 실제 결과 사이의 차이인 '잔차에 대한 분석'을 통해 추가적인 분석 방향에 대해 고민해야 한다. 1. 백색 소음 실제값과 예측값 차를 잔차라고 한다. 잔차를 살펴보았을 때 잔차에 아무런 패턴이 남아 있지 않다면 f(x..

◈ '시계열 데이터 분석 절차' 목차 ◈ 1. 시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출 2. 시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리 3. 시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1) 4. 시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2) 5. 시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인 시계열 회귀 레퍼런스 모델을 구현하고 성능에 대해 측정해야 한다. 6. 시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단 1. 시계열 회귀분석 레퍼런스 모델 적용 해당 내용은 회귀분석에 대해 안다는 전제 하에 진행하도록 하겠습니다. (회귀분석에 대해 정리가 필요하다면 아래 내용을 참고해주세요.) 더보기..

◈ '시계열 데이터 분석 절차' 목차 ◈ 1. 시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출 2. 시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리 3. 시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1) 4. 시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2) 시계열 데이터 내 Y요인에 대한 데이터 전처리 방법을 살펴보자 5. 시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인 6. 시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단 1. 종속 변수의 정상성 이해하기 강정상과 약정상 이해하기 비정상 데이터 이해하기 정상성 데이터와 비정상 데이터 비교를 통한 인사이트 정상성 = 평균이 일정, 분산이 일정, 공분산 없음..