- 데이터 분석 작업에서 가장 먼저 해야하는 것은 데이터를 그래프로 나타내는 것
- 그래프는 패턴, 특이한 관측값, 시간에 따른 변화, 변수 사이의 관계 등의 데이터의 많은 특징을 눈으로 볼 수 있게 해줌
- 데이터를 그림으로 나타낸 그래프에서 보이는 특징은 사용할 예측 기법에 반드시 포함되어야 함
시계열 패턴
- `추세(trend)`
- 데이터가 장기적으로 증가하거나 감소할 때, 추세가 존재
- 선형적일 필요는 x
- `계절성(seasonality)`
- 해마다 어떤 특정한 때나 일주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 주는 경우
- 계절성은 빈도의 형태로 나타나는데, 빈도는 항상 일정하며 알려져 있음
- 빈도가 변하지 않고 연중 어떤 시기와 연관되어 있는 요동
- `빈도(frequency)`는 계절성 패턴이 나타나기 전까지의 데이터의 개수로, 사람이 지정
- `주기성(cycle)`
- 고정된 빈도가 아닌 형태로 증가나 감소하는 모습
- 일정한 빈도로 나타나지 않는 요동
- 이러한 요동은 경제 상황 때문에 보통 일어나며, 흔히 `경기 순환(business cycle)`과 관련 있음
- 이러한 요동의 지속기간은 적어도 2년 이상
- 주기들의 평균 길이는 계절성 패턴의 길이보다 길고, 주기의 크기는 계절적인 패턴의 크기보다 좀 더 변동성이 큼
- 데이터에서 나타나는 추세, 계절성, 주기 등의 시계열 패턴을 살펴보고 그 패턴을 잡아낼 수 있는 기법을 선택
- 추세, 계절성, 주기의 서로 다른 조합
- 미국 단독 주택 거래량 : 매년 강한 계절성과 약 6-10년의 몇몇 강한 주기적인 패턴이 보이며, 전체 기간에 대한 추세는 없음
- 미국 재무부 단기 증권 그래프 : 계절성은 없지만, 아래로 내려가는 추세가 있으며 더 긴 시계열이 있었다면 하향 추세가 긴 주기의 한 부분이라고 볼 수도 있음
- 호주 분기별 전기 생산량 그래프 : 강한 계절성과 함께 강한 증가 추세가 있지만 주기적인 행동은 보이지 않음
- 구글 주식 종가 기준 일별 변동 : 추세나 계절성 또는 주기적인 행동이 없음
- 무작위적인 요동이 있어 예측 모델을 만드는 데 도움이 될 강한 패턴도 없음
💡 추세, 계절성, 주기 등에 대한 판단을 하는 기준이 매우 주관적이라는 느낌이 든다. 이에 대해 판단하는 객관적인 지표들이 필요할 것 같고, 그런 것이 없다면 데이터의 해석이 사람마다 달라질 수 있기에 많은 방법들이 있을 것 같다.
산점도(Scatterplots)
- 시계열 사이의 관계를 살필 때 사용하는 시각화 기법
- 호주 빅토리아 주 30분 단위 전력 수요와 기온에 대한 산점도를 같이 봄으로써 수요와 기온 사이의 관계를 확인
- 기온이 높을 때 에어컨을 틀어야하기 때문에 전력 수요가 크게 증가
- 기온이 낮을 때 또한 어느 정도 난방으로 인한 전력 수요가 증가
상관계수(correlation coefficient)
- `상관 계수(correlation coefficient)`는 두 변수 사이의 관계의 강도를 측정
- r은 항상 -1~1 사이의 값을 갖음
- 음수는 음의 관계를, 양수는 양의 관계를 의미
- 상관계수는 선형관계의 강도만 측정하기 때문에 비선형 관계에 대해서는 알 수 없음
- 호주 빅토리아 주의 30분 단위 전력 수요 및 기온 그래프에서도 둘 사이의 상관계수는 0.28이지만 비선형 관계가 더욱 큼
💡 선형관계와 비선형관계
선형 관계는 직선으로 모형화할 수 있는 데이터의 추세이다. 두 변수가 동시에 일정한 비율로 증가하거나 감소하는 경우 양의 선형 관계가 존재한다. 또한, 한 변수가 감소할 때 다른 변수는 증가하는 경우 음의 상관 관계가 존재한다. 그러나 두 변수 사이의 관계가 선형이 아닌 경우 한 변수가 변하면 증가 또는 감소 비율이 달라지며, 데이터에 곡선 패턴이 발생한다. 이러한 곡선 추세는 2차 또는 3차 함수 등 비선형 함수를 사용하여 더 잘 모형화할 수 있다.
- 같은 상관계수(0.82)를 갖더라도 나타나는 관계는 아주 다를 수 있기 때문에 상관계수 값에만 의존하지 말고 직접 그려서 확인해봐야함
자기상관(autocorrelation)
- `자기상관(autocorrelation)`은 시계열의 `시차 값(lagged values)` 사이의 선형 관계를 측정
- 상관값이 두 변수 사이의 선형 관계의 크기를 측정하는 것과 동일
- r_1은 y_t와 y_t-1 사이의 관계를 측정하고, r_2는 y_t와 y_t-2 사이의 관계를 측정
- T는 시계열의 길이
- 자기상관 계수는 보통 `자기상관함수(ACF)`를 나타내기 위해 그림
- `상관도표(correlogram)`라고도 함
- 분기별 맥주 생산량 데이터의 처음 9개의 자기상관 계수 및 이에 대한 자기상관함수
- 자기상관함수 그래프
- r_4는 고점과 저점이 4개의 분기마다 나타나는 경향, 즉 계절성 패턴이 있어 값이 다른 시차들보다 매우 높음
- r_2는 저점이 고점 직후의 2개 분기마다 나타나는 경향이 있어 더 큰 음의 값을 나타냄
- 파란색 점선은 상관계수가 0과 유의하게 다른지 아닌지를 나타냄
ACF 그래프에서 추세와 계절성
- 데이터에 추세가 존재하면 시간적으로 가까운 관측치들이 관측값의 크기도 비슷해 작은 크기의 시차에 대한 자기상관은 큰 양의 값을 갖는 경향이 있음
- 추세가 있는 시계열의 ACF는 양의 값을 갖는 경향이 있으며, ACF의 값은 시차가 증가함에 따라 서서히 감소
- 데이터에 계절성이 존재하면 계절성 빈도의 배수로 나타나는 계절성 시차에 자기상관이 더 크게 나타남
- 시차값(lags)이 증가할수록 ACF 값이 서서히 감소하는 것은 추세 때문이며, 물결 모양이 나타나는 것은 계절성 때문
백색잡음(white noise)
- 자기상관이 없는 시계열은 `백색잡음(white noise)`
- 백색잡음 시계열에 대해 자기상관 값 각각이 거의 0일 것이라 기대할 수 있지만, 무작위적 변동 때문에 정확하게 0은 아님
- 백색잡음 시계열은 ACF에서 막대의 95%가 +-2 / √T 에 들어갈 것이라 기대할 수 있음
- 이러한 경계를 주로 그래프로 그려서 나타냄(위에서의 파란 점선)
- 하나 이상의 막대가 경계를 벗어나거나 뾰족한 막대의 5% 이상이 이러한 경계를 벗어난다면, 아마도 백색잡음이 아님
- 어떠한 시계열이 있고 그 중 시간의 길이를 T만큼 샘플링했을 때, 샘플링된 시계열 값들의 자기상관 값들이 백색잡음인 경우, 평균이 0이고 분산이 1인 분포를 따르기 때문에 +- 2/√T가 95%의 신뢰구간이 됨
💡 정상 시계열과 비정상 시계열
: 시계열 자료(y_t)의 평균과 분산이 t시점에 상관없이 동일할 때, y_t와 y_t-h 시전의 자기 상관은 시차 h에만 의존하며 시점 t/t-h에는 의존하지 않을 때 `정상성(Stationarity)`를 갖는다고 한다. 따라서 추세나 계절성이 있는 시계열은 서로 다른 시점의 값에 영향을 주기 때문에 정상시계열이 아니다.
`백색잡음(white noise)`은 대표적인 정상 시계열로, 시점에 상관없이 평균이 일정하고(보통 0으로 가정) 분산은 시그마^2이므로 시점 t에 영향을 받지 않는다.