Machine Learning/1. 머신러닝 프로젝트 절차

[개요] 머신러닝 프로젝트 절차(1) - 큰 그림 보기

Hwasss 2021. 8. 12. 14:23
728x90

◈  '머신러닝 프로젝트' 목차

1. 머신러닝 프로젝트 절차(1) - 큰 그림 보기

     데이터를 보기 앞서 명확하게 수립하고 넘어가야 할 내용들에 대해 살펴보자.

2. 머신러닝 프로젝트 절차(2) - 데이터 샘플링 및 훈련/테스트 세트 만들기

3. 머신러닝 프로젝트 절차(3) - 데이터 이해를 위한 탐색

4. 머신러닝 프로젝트 절차(4) - 머신러닝 알고리즘을 위한 데이터 준비

5. 머신러닝 프로젝트 절차(5) - 모델 훈련 및 검증

6. 머신러닝 프로젝트 절차(6) - 모델 세부 튜닝

7. 머신러닝 프로젝트 절차(7) - 시스템 론칭


1. 문제 정의 

비즈니스의 정확한 목적을 파악해야 한다. 그리고 현재 솔루션은 어떻게 적용되고 있는 지 파악한다. 

 

현황에 대한 자료들과 명확한 비즈니스 목적 하에 시스템을 설계한다.

 

우선 문제를 정의해야 한다.

· 지도 학습, 비지도 학습, 강화 학습 중 무엇을 할지

· 분류 문제인지 회귀 문제인지 아니면 다른 작업인지

· 배칙 학습과 온라인 학습 중 어느 것을 사용할 지

 

이렇게 비즈니스의 정확한 목적 하에 문제를 어떻게 구성할 지, 어떤 알고리즘을 선택할 지, 모델 평가에 어떤 성능 지표를 사용할 지, 모델 튜닝을 위해 얼마나 노력을 투여할 지 결정해야 한다. 

 

 

2. 성능 측정 지표 선택

회귀 문제의 전형적인 성능 지표는 평균 제곱급 오차(RMSE) 또는 평균 절대 오차(MSE) 이다. 

 

º 평균 제곱근 오차(RMSE)

 

º 평균 절대 오차(MSE)

 

RMSE 와 MAE 모두 예측값의 벡터와 실제값의 벡터 사이의 거리 측정하는 방법이다. 

 

RMSE 는 l2 노름이고, MAE 는 l1 노름이다. 

노름 지수가 클수록 큰 값의 원소에 치우치고, 작은 값은 무시된다. 

그래서 RMSE 가 MSE 보다 이상치에 더 예민하다. 

종 모양 분포의 양 끝단 처럼, 이상치가 매우 드물다면 RMSE 가 일반적으로 더 잘 맞는다. 

 

분류 문제의 전형적인 성능 지표는 오차 행렬을 활용하여, 문제 상황에 적합한 지표를 비교한다. 

분류 모델의 성능 지표에 대해 [모델 알고리즘] [분류] 모델 평가 에서 자세히 정리해두었다.

 

 

3. 가정 검사 

마지막으로 지금까지 만든 가정을 나열하고 검사해본다. 

이 과정에서 심각한 문제를 일찍 발견할 수도 있다. 

몇 달 동안 시스템을 구축하고 나서 문제를 발견하게 되면 매우 리스크가 커진다.