My Data Story
[개요] 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 ... 수정중 본문
Machine Learning/1. 머신러닝 프로젝트 절차
[개요] 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 ... 수정중
Hwasss 2021. 8. 12. 15:02728x90
◈ '머신러닝 프로젝트 절차' 목차 ◈
2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기
3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색
scatterplot, boxplot, correlation 등을 활용해 데이터에 대해 이해한다.
4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비
5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증
테스트 세트 분리 후, 훈련 세트에 대해서만 탐색한다.
데이터가 너무 크면, 탐색을 위한 세트를 별도로 샘플링해서 진행해도 좋다.
1. 상관 관계 조사
1.1 연속형 변수
상관계수는 선형적인 상관관계만 측정한다. (x가 증가하면, y는 증가하거나 감소한다.)
그래서 비선형적인 관계는 잡을 수 없다.
# 특성 사이의 상관관계 산점도로 확인하기
from pandas.plotting improt scatter_matrix
scatter_matrix(df, figsize=(12,8))
# 특성 사이의 상관계수 보기
df.corr()
1.2 범주형 변수
2. 특성 조합으로 실험
프로토타입을 만들고 실행한 후 그 결과를 분석해서 더 많은 통찰을 얻고 다시 이 탐색 단계로 돌아오게 될 것이다.
'Machine Learning > 1. 머신러닝 프로젝트 절차' 카테고리의 다른 글
[개요] 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 (0) | 2021.08.12 |
---|---|
[개요] 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 (0) | 2021.08.12 |
[개요] 머신러닝 프로젝트 절차 (2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 (0) | 2021.08.12 |
[개요] 머신러닝 프로젝트 절차(1) - 큰 그림 보기 (0) | 2021.08.12 |
[개요] 머신러닝의 주요 도전 과제 (0) | 2021.08.12 |