code review/study

[adsp] 시계열 모형(AR, MA, ARMA, ARIMA) 정리

jmHan 2024. 2. 20. 18:36
반응형

 

목차

     

    1. 시계열 데이터 

    시계열 데이터란 시간의 흐름에 따라 관측된 데이터이다.

    시계열 분석을 통해 미래 값을 예측하고 어떤 경향이나 주기, 계절성 등을 파악할 수 있다. 

     

    시계열 데이터는 두 가지로 나뉘는데 

    1) 비정상 시계열

    시계열 분석으로 핸들링하기 어려운 자료로 대부분의 시계열 자료가 비정상 시계열이다.  

     

    2) 정상 시계열 

    비정상 시계열을 변환하여 만든 핸들링 하기 쉬운 시계열 자료를 말한다. 

    정상 시계열이 되기 위해서는 정상성이라는 조건을 따라야 한다. 

     

    2. 정상성(Stationary)

    시계열 데이터는 정상성이라는 3가지 성질을 만족해야 한다.

     

    1) 시간에 관계없이 평균이 일정하다.

    2) 시간에 관계없이 분산이 일정하다.

    3) 공분산은 시간에 의존하지 않고 오직 시차에만 의존한다.  

     

    세 가지 중 하나라도 만족하지 못하면 비정상 시계열 데이터이다. 비정상 시계열임을 확인하려면

     

    1) 시계열 자료의 그림을 통해 이상점과 개입이 있는지 

    2) 정상성 조건을 만족하는지와 추세가 있는지

     

    관찰하면 된다. 

     

    해당 자료는 대표적인 정상 시계열 자료이다. 시간에 지남에도 평균이 일정하고 분산도 일정한 모습을 보인다. 

    하지만 눈으로 봐서는 정상 시계열인지 판단이 어려운 자료도 있는데 이럴 때에는 ACF(Auto Correlation Function)을 이요해서 정상성을 확인한다. 

    ACF와 PACF plot을 시각화한 자료이다. 

     

    lag(1) - 현재 시점 자료와 바로 이전 시점의 자료 간 차이

    lag(1)에 대한 ACF - 현재 시점 자료와 바로 이전 시점 자료 간 Auto Correlation 

    lag(2) - 현재 시점 자료와 2 시점 이전 자료 간 차이   

    lag(2)에 대한 ACF - 현재 시점 자료와 2 시점 이전 자료 간 Auto Correlation 

     

    해당 자료는 비정상 시계열 자료이다.

    시간에 따라 상승 추세가 있으며 자료의 평균이 일정하지 않고 분산도 증가하는 경향을 보인다. 

    ACF가 일정하게 감소하는 모양을 띄는데, 비정상 시계열 자료임을 의미한다. 

     

    1) 그래프에서 추세가 보인다면

    평균이 일정하지 않다는 의미이다.

    이러한 비정상 시계열은 차분(difference)을 통해 정상화 즉, 정상 시계열로 만들 수 있다. 

     

    2) 그래프에서 분산이 일정하지 않다면

    변환(transformation)을 통해 분산을 일정하게 바꿔줄 수 있다. 

    예를 들어 자연 로그를 취해주면 데이터가 정상 시계열로 바뀐다. 

     

    * 차분(difference)이란?

    현 시점의 자료에서 전 시점의 자료를 빼는 것을 말한다.

     

    1)일반 차분(regular difference): 바로 전 시점의 자료를 빼는 방법

    2) 계절 차분(seasonal difference): 여러 시점 전의 자료를 빼는 방법. 주로 계절성을 갖는 자료를 정상화하는 데 사용한다.

     

    3. 시계열 모형

    1) 자기회귀모형(Auto Regressive model. AR모형)

    자기회귀모형은 현재 시점의 자료가 p시점 전까지의 이전 자료들의 영향을 받는 모형이다. 

    AR(p) 모형은 아래와 같은 수식으로 표현된다.

     

    만약 현재 시점의 자료가 과거 한 시점의 자료로만 설명할 수 있다면 1차 자기회귀모형(AR(1))이다.

     

    2) 이동평균모형(Moving Everage model. MA모형)

    이동평균모형은 현재 시점의 자료를 유한 개의 백색잡음의 선형 결합으로 표현하는 모형이다.

    MA 정의상 평균과 분산이 일정하므로 MA 모형은 정상성을 만족하며 정상성에 대한 가정이 필요하지 않다.

    MA(q) 모형은 아래와 같은 수식으로 표현된다.

     

    1차 이동평균모형(MA(1)모형)은 현재 시점의 자료를 바로 현 시점과 이전 시점의 백색잡음의 결합으로 이루어진 것이다.

    2차 이동평균모형(MA(2)모형)은 현재 시점의 자료를 바로 현 시점과 두 시점 이전의 백색잡음의 결합으로 이루어진 것이다.

     

    * MA모형이 정상성을 만족하는지 증명

    정의상 오차 는 평균이 0인 독립항등분포여서 아래와 같이 평균과 분산을 구할 수 있다.

     

    1) 평균 c로 상수

     

    2) 분산도 상수 

     

    평균과 분산이 시간에 관계없이 상수로 일정하기 때문에 MA모형은 정상성을 띈다고 할 수 있다. 

     

     

    3) 자기회귀누적이동평균모형(Auto Regressive Intergrated Moving Everage model. ARIMA모형)

    ARIMA 모형은 비정상 시계열 모형으로 차분이나 변환을 통해 AR/MA/ARMA모형으로 정상화할 수 있다.

    다시 말해 AR/MA/ARMA모형이 되기 위해서는 자료가 정상성을 만족해야 한다는 뜻이기도 하다.

     

    ARIMA(p,d,q) 모형의 p,d,q에 대해 설명하면 아래와 같다. 

     

    p: 자기 회귀 차수(=AR모형에서 독립 변수의 개수)

    q: 이동평균 차수(=MA모형에서 이전 백색 잡음의 개수)

    d: ARIMA에서 ARMA로 정상화하기 위해 몇번 차분했는가   

     

    - ARIMA 모형은 비정상 시계열 모형이다.

    - ARIMA 모형을 차분이나 변환을 통해 AR모형, MA모형, 이 둘을 합친 ARMA모형으로 정상화 할 수 있다.

    - 시계열 {Zt}를 d번 차분한 시계열이 ARMA(p,q)모형이면 시계열 {Zt}는 차수가 p,d,q인 ARIMA모형 즉, ARIMA(p,d,q)모형을 갖는다. 

    - p, d, q에 따라서 각각 0이면 IMA(d,q), ARMA(p,q), ARI(p,d) 모형으로 부를 수 있다.

    - ARMA(p,q) 모형은 정상성을 만족한다. 

    - IMA(d,q)를 d번 차분하면 MA(q) 모형을 따른다. 

    - ARI(p,d)를 d번 차분하면 AR(p) 모형을 따른다. 

     

    4) 분해 시계열

    시계열 데이터에 영향을 주는 요인들을 분리하여 분석하는 방법이다.

    분해 시계열에는 회귀분석적인 방법을 주로 사용한다.

     

    대표적인 요인들로는 추세 요인, 계절 요인, 순환 요인, 불규칙 요인으로 총 4가지가 있다.

     

    Tt: 추세(경향) 요인: 자료가 오르거나 내리는 추세를 갖는 경우(ex. 선형, 이차, 지수적 형태)

    Ss: 계절 요인: 요일, 월, 사계절 등 계절에 따라 고정된 주기로 자료가 변하는 경우

    Ct: 순환 요인: 경제나 자연적인 이유 외에 알려지지 않은 주기를 따라 자료가 변하는 경우 

    It: 불규칙 요인: 위 세가지 요인으로 설명할 수 없는 경우. 오차에 해당하는 요인 

     

     

    4. 시계열 분석 방법

    1) 시계열 요소 분해법

    시계열 자료의 4가지 변동 요인을 찾아 시각적으로 분석하는 기법 

     

    2) 평활법 (Smoothing Method)

    시계열 자료의 흐름을 파악하기 위해 과거 자료의 불규칙한 변동을 제거하는 방법 

     

    2-1) 이동 평균법

    일정 기간 동안의 자료에 대한 평균을 구하고 이들의 추세를 파악하여 다음 기간의 추세를 예측하는 방법

    m: 특정 기간, Zn: 가장 최근 시점 

    n개의 시계열 데이터를 m 기간으로 이동평균할 경우, n-m+1 개의 이동평균 데이터가 생성된다.

     

    - 시계열 데이터에서 계절 변동과 불규칙 변동을 제거하여 추세변동과 순환변동만을 가진 시계열로 변환하는 방법으로도 사용된다.

    - 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여한다.

    - 시계열 자료에 뚜렷한 추세가 있거나 불규칙 변동이 심하지 않다면 짧은 기간(m 개수가 적음)의 평균을 사용한다.

    - 반대로 불규칙변동이 심하다면 긴 기간(m 개수가 많음)의 평균을 사용한다. 

     

    2-2) 지수평활법

    전체 시계열 자료를 사용하여 평균을 구하고 최근 시계열에 더 큰 가중치를 적용하여 미례를 예측하는 방법

    Fn+1: n 시점 다음의 예측값, a: 지수평활 계수, Zn: n시점의 관측값

    지수평활계수가 과거로 갈수록 지수적으로 감소하는 모습을 보인다.

     

    - 단기간에 발생하는 불규칙 변동을 평활하는 방법 

    - 자료의 수가 많고 안정된 패턴을 보일수록 예측 품질이 높다.

    - 지수평활법에서 가중치 역할을 하는 것이 지수평활계수이며 불규칙 변동이 큰 시계열인 경우 지수평활계수로 작은 값을, 불규칙 변동이 작은 시계열이면 큰 지수평활계수를 사용한다. 

    - 지수평활계수는 과거로 갈수록 지속적으로 감소한다.

    - 지수평활법은 불규칙변동의 영향을 제거하는 효과가 있고 중기 예측 이상에 주로 사용한다. 

    - 단순지수평활법의 경우 장기추세나 계절변동이 포함된 시계열 예측에는 적합하지 않다.

     

    참고

    https://todayisbetterthanyesterday.tistory.com/36

    https://nightime-mech.tistory.com/114

    https://www.youtube.com/watch?v=ma_L2YRWMHI

    https://m.blog.naver.com/muzzincys/220357284238

    https://dlsdn73.tistory.com/1151

    https://assaeunji.github.io/statistics/2021-08-23-arima/

    반응형