목록Machine Learning/1. 머신러닝 프로젝트 절차 (9)
My Data Story

◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 구현한 머신러닝 모델 론칭 시 고려해해야 항목들에 대해 살펴보자 1. 론칭 모델을 상용환경에 배포하는 방법은 크게 2가지가 있다. 첫 번째, 전체 전처리 파이프 라인과 예측 파이프 라인이 포함된 사이킷런 모델을 joblib 등을 사용하여 저장..
◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 선정한 모델의 성능 향상을 위해 하이퍼파라미터 탐색하는 방법, 앙상블 방법, 오차 분석 등에 대해 살펴보자. 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 1. 하이퍼파라미터 탐색 1.1 그리드 탐색 탐색하고자 하는 하이퍼파라미터와 시도해볼만 한 값을 지정하여 가능한 모든 하이퍼파라미터 ..

◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 훈련 세트에서 다양한 모델에 대해 훈련하고 검증하여 괜찮은 모델 하나를 선정한다. 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 1. 훈련 시 랜덤한 샘플의 필요성 학습 알고리즘은 훈련 샘플의 순서에 민감해서 비슷한 샘플이 연이어 나타나면 성능이 나빠진다. 학습하기 전에 랜덤하게 데이터 셋..
◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 머신러닝 알고리즘에 주입하기 위해 Null 처리, 범주형 변수에 대한 수치화, 특성 스케일링 등을 고려하여 데이터를 정제한다. 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 데이터 정제 작업은 모델링하는 과정에서 반복적으로 수정 및 구현하는 작업이기 때문에, 이를 함수로 만들어 자동화해두..
◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 scatterplot, boxplot, correlation 등을 활용해 데이터에 대해 이해한다. 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 테스트 세트 분리 후, 훈련 세트에 대해서만 탐색한다. 데이터가 너무 크면, 탐색을 위한 세트를 별도로 샘플링해서 진행해도 좋다. 1. 상관 관..

◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 본격적인 데이터 분석에 앞서, 데이터 구조를 살펴보고 데이터에 맞는 샘플링하여 훈련 세트와 테스트 세트를 분리한다. 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭8. 머신러닝 프로젝트 절차(8) - 시스템 론칭 데이터 필드 별 요약 정보를 보며 대략적인 데이터 구조를 살펴본 후 적절한 샘..

◈ '머신러닝 프로젝트' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 데이터를 보기 앞서 명확하게 수립하고 넘어가야 할 내용들에 대해 살펴보자. 2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 1. 문제 정의 비즈니스의 정확한 목적을 파악해야 한다. 그리고 현재 솔루션은 어떻게 적용되고 있는 지 파악한다. 현황에 대한 자료들과 명확한 비즈니스 목적 하에 시스템을 ..

◈ '머신러닝 개요' 목차 ◈ 1. 머신러닝 시스템의 종류 2. 머신러닝의 주요 도전 과제 머신러닝 프로젝트 진행 시 데이터, 알고리즘, 검증 측면에서 발생할 수 있는 이슈에 대해 살펴보자. 1. 나쁜 데이터 1.1 충분하지 않은 양의 훈련 데이터 복잡한 문제에서 알고리즘보다 데이터 양이 더 중요하지만 보통은 작거나 중간 규모의 데이터셋이 여전히 흔하고 훈련 데이터를 추가로 모으기 쉽지 않기에 아직은 알고리즘을 무시하지 말아야 한다. 1.2 대표성 없는 훈련 데이터 샘플이 작으면 샘플 잡음 sampling noise (우연에 의한 대표성 없는 데이터)이 생기고 샘플이 크더라도 표본 추출의 방법이 잘못되면 대표성을 띄지 못 할 수 있다. 즉 샘플링 편향 sampling bias 가 발생할 수 있다. 1.3..

◈ '머신러닝 개요' 목차 ◈ 1. 머신러닝 시스템의 종류 학습하는 동안 감독의 형태에 따라 지도 학습, 비지도 학습, 준지도 학습으로 구분할 수 있다. 학습하는 방식에 따라 배치 학습, 온라인 학습으로 구분할 수 있다. 머신러닝 시스템이 일반화 되는 방식에 따라 사례 기반 학습, 모델 기반 학습으로 구분할 수 있다. 2. 머신러닝의 주요 도전 과제 1. 지도 학습과 비지도 학습 학습하는 동안의 감독 형태나 정보량에 따라 지도 학습과 비지도 학습으로 분류한다. 1.1 지도 학습 지도학습은 훈련 데이터에 레이블, 원하는 답이 포함되어 있다. 전형적인 지도 학습 작업은 분류와 회귀가 있다. cf. 일부 회귀 알고리즘은 분류에도 사용 가능 (로지스틱 회귀) K-최근접 이웃 K-Nearest Neighbors ..