My Data Story
시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2) 본문
◈ '시계열 데이터 분석 절차' 목차 ◈
1. 시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출
2. 시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리
3. 시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1)
4. 시계열 데이터 분석 절차(4/6) - 시계열 데이터 전처리(2)
시계열 데이터 내 Y요인에 대한 데이터 전처리 방법을 살펴보자
5. 시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인
6. 시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단
1.
종속 변수의 정상성 이해하기
강정상과 약정상 이해하기
비정상 데이터 이해하기
정상성 데이터와 비정상 데이터 비교를 통한 인사이트
정상성 = 평균이 일정, 분산이 일정, 공분산 없음(자기 상관 없음)
정상성 데이터로 만들기 위해 대부분 차분을 적용한다.
정상성 데이터 생성하여 활용 목적 - 예측 효과가 높아진다- parameter 적게 추정해도 된다. =알고리즘이 단순해진다. = 과적합 방지해 준다.
잔차검증에서 white noise 여야 한다는 전제도 결국 잔차도 정상성을 가져야 한다는 의미이다.
정상성을 통계량으로 확인하기
종속 변수 데이터의 정상성 테스트 실습하기
정통적 시계열 알고리즘은 Y가 정상성이 아닐 경우 파라미터 추정이 어렵다.
ex. AR/MA/ARIMA 는 파라미터를 1~ 무한대로 늘릴 수 있는데, Y가 발산하는 그래프가 되면 시계열 Y값을 모두 만족시키는 모델 파라미터 추정하기 어렵다. 시계열 알고리즘은 X요인에 대한 파라미터가 하나라도 추정이 안되면 알고리즘을 멈춰버린다.
정상성 테스트 종류는 각각 생성된 목적이 조금 다르다.
ADF 는 추세 적합에 좀 더 유리하게 만들어져, 추세가 없으면 정상 데이터라고 검증한다.
KPSS 는 계절성 적합에 좀 더 유리하게 만들어져, 계절성이 없으면 정상 데이터라고 검증한다.
따라서 ADF와 KPSS 통계 결과가 다를 수도 있다.
정상성을 높이는 방향으로 Y의 전처리를 진행해야 한다.
'Time Series Analysis > 1. 시계열 분석 절차' 카테고리의 다른 글
시계열 데이터 분석 절차(6/6) - 분석 종료 위한 잔차 진단 (0) | 2021.11.14 |
---|---|
시계열 데이터 분석 절차(5/6) - 시계열 레퍼런스 모델 구현 및 성능 확인 (0) | 2021.11.14 |
시계열 데이터 분석 절차(3/6) - 시계열 데이터 전처리(1) (0) | 2021.11.14 |
시계열 데이터 분석 절차(2/6) - 시계열 데이터 분리 (0) | 2021.11.14 |
시계열 데이터 분석 절차(1/6) - 시계열 데이터 패턴 추출 (0) | 2021.11.09 |