My Data Story

시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인 본문

Time Series Analysis/1. 시계열 분석 절차

시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인

Hwasss 2021. 11. 14. 21:56
728x90

 ◈  '시계열 데이터 분석 절차' 목차 

1. 시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출

2. 시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리

3. 시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1)

4. 시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2)

5. 시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인

    시계열 회귀 레퍼런스 모델을 구현하고 성능에 대해 측정해야 한다.

6. 시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단


1. 시계열 회귀분석 레퍼런스 모델 적용

해당 내용은 회귀분석에 대해 안다는 전제 하에 진행하도록 하겠습니다. 

(회귀분석에 대해 정리가 필요하다면 아래 내용을 참고해주세요.)

 

시계열 회귀 분석 레퍼런스 모델을 생성하여 summary 를 분석해보자.

import statsmodels.api as sm

fit_reg1 = sm.OLS(x_train, y_train).fit()
fit_reg1.summary()

(.....)

 

X 요인들이 Y에 미치는 영향성 여부를 각 X요인에 대한 t-test 결과 p-value로 확인할 수 있는데,

알고리즘 결과 도출된 통계적 결과를 무작정 신뢰할 것이 아니라 앞서 확인한 변수들간의 상관계수 값과 함께 비교하며 비판적으로 분석하도록 한다.

 

생성된 모델로 테스트셋에 대해 예측하면 다음과 같다.

pred_reg1 = fit_reg1.predict(x_test).values
print(pred_reg1)

 

2. 모델 성능 확인 

생성된 레퍼런스 모델로 데이터를 예측하여 성능을 측정한다.

시계열 데이터 모델의 성능 지표로 크게 4가지가 있다. 

  • R-squared
    - 추정된 선형 모형이 주어진 데이터에 잘 적합된 정도로 계량 경제학에서는 모델에 의해 설명되는 데이터의 분산 정도를 의미
  • Mean Absolute Error (MAE)
    - 각 데이터의 단위를 보존하는 성능 지표

  • Means Sqaured Error (MSE)
    - 가장 많이 사용되며 큰 오차에 패널티를 높게 부여하는 성능 지표
  • Means Absolute Percentage Error (MAPE)
    - MAE와 유사하나 퍼센트 형식으로 표시한 성능 지표

 

더불어 시계열 데이터의 전처리 성능을 확인할 필요가 있다. 

데이터 전처리 전의 특성(feature) 기반의 예측 성능과 데이터 전처리 후의 특성(feature) 기반의 예측 성능 비교를 통해 전처리 성능에 대해 확인할 수 있다.