목록과대 적합 (1)
My Data Story

◈ '머신러닝 개요' 목차 ◈ 1. 머신러닝 시스템의 종류 2. 머신러닝의 주요 도전 과제 머신러닝 프로젝트 진행 시 데이터, 알고리즘, 검증 측면에서 발생할 수 있는 이슈에 대해 살펴보자. 1. 나쁜 데이터 1.1 충분하지 않은 양의 훈련 데이터 복잡한 문제에서 알고리즘보다 데이터 양이 더 중요하지만 보통은 작거나 중간 규모의 데이터셋이 여전히 흔하고 훈련 데이터를 추가로 모으기 쉽지 않기에 아직은 알고리즘을 무시하지 말아야 한다. 1.2 대표성 없는 훈련 데이터 샘플이 작으면 샘플 잡음 sampling noise (우연에 의한 대표성 없는 데이터)이 생기고 샘플이 크더라도 표본 추출의 방법이 잘못되면 대표성을 띄지 못 할 수 있다. 즉 샘플링 편향 sampling bias 가 발생할 수 있다. 1.3..
Machine Learning/1. 머신러닝 프로젝트 절차
2021. 8. 12. 14:22