목록검증 세트 (2)
My Data Story

◈ '머신러닝 프로젝트 절차' 목차 ◈ 1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기 2. 머신러닝 프로젝트절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기 3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색 4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비 5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증 훈련 세트에서 다양한 모델에 대해 훈련하고 검증하여 괜찮은 모델 하나를 선정한다. 6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝 7. 머신러닝 프로젝트 절차(7) - 시스템 론칭 1. 훈련 시 랜덤한 샘플의 필요성 학습 알고리즘은 훈련 샘플의 순서에 민감해서 비슷한 샘플이 연이어 나타나면 성능이 나빠진다. 학습하기 전에 랜덤하게 데이터 셋..

◈ '머신러닝 개요' 목차 ◈ 1. 머신러닝 시스템의 종류 2. 머신러닝의 주요 도전 과제 머신러닝 프로젝트 진행 시 데이터, 알고리즘, 검증 측면에서 발생할 수 있는 이슈에 대해 살펴보자. 1. 나쁜 데이터 1.1 충분하지 않은 양의 훈련 데이터 복잡한 문제에서 알고리즘보다 데이터 양이 더 중요하지만 보통은 작거나 중간 규모의 데이터셋이 여전히 흔하고 훈련 데이터를 추가로 모으기 쉽지 않기에 아직은 알고리즘을 무시하지 말아야 한다. 1.2 대표성 없는 훈련 데이터 샘플이 작으면 샘플 잡음 sampling noise (우연에 의한 대표성 없는 데이터)이 생기고 샘플이 크더라도 표본 추출의 방법이 잘못되면 대표성을 띄지 못 할 수 있다. 즉 샘플링 편향 sampling bias 가 발생할 수 있다. 1.3..