$T>1$인 경우 IMS forecasting은 `single-step forecaster`를 학습하고, 이를 반복적으로 적용하여 `multi-step` 예측을 얻음
DMS forecasting은 multi-step forecasting을 한번에 직접 optimize
IMS forecasting은 DMS forecasting과 비교했을 때 autoregressive 추정 과정 덕분에 분산이 적지만, error accumulation 효과를 필연적으로 겪음
IMS forecasting은 높은 정확도를 가진 single-step forecaster가 있고, future time steps $T$의 크기가 상대적으로 작을 때 선호
DMS forecasting은 unbiased single-step forecasting 모델을 얻기 힘들거나, $T$가 큰 경우 더 정확한 예측을 생성
3. Transformer-Based LTSF Solutions
Transformer 기반 모델은 NLP와 Computer Vision task에서 multi-head self-attention의 효과 덕분에 독보적인 성능을 보임
Transformer 모델의 long-range dependencies를 포착하는 능력을 고려할 때, 대부분의 연구는 덜 탐구된 장기 예측 문제($T$ >> 1)에 초점을 맞춤
💡 Non-Transformer-Based TSF Solutions : 1970년대에는 `ARIMA`, `exponential smoothing`, `structural models`와 같은 통계적 접근 방법들이 넓은 범위의 문제들에 사용되었다. 그러나, 일반적으로 통계적 방법에 사용되는 parametric 모델을 구축하기 위해선 상당한 도메인 전문 지식이 필요하다. 따라서 이러한 문제점을 해결하기 위해 많은 `Grandient Boosting Regression Tree(GBRT)`와 같은 ML 기술들이 인기를 얻었고, 이들은 데이터에에 기반한 방식으로 시계열의 `temporal dynamics`을 학습했다. 그러나 이 또한 여전히 feature engineering과 모델 설계에 대한 메뉴얼이 필요했다. 이후 풍부한 데이터를 통해 강력한 representation을 학습할 수 있는 능력을 가진 `Deep Neural Networks(DNNs)`가 등장하면서 다양한 딥러닝 기반 TSF 솔루션들이 제시되었고, 전통적인 방법보다 많은 경우에서 더 좋은 예측 정확도를 보여주었다.
Transformer 외에도 유명한 DNN 아키텍처 또한 시계열 예측에 적용되었다. (1) `Recurrent Neural Networks(RNNs)` 기반 모델들은 과거 정보를 internal memory states에 압축적으로 요약하고, 예측을 위해 스스로를 recursive하게 업데이트한다. 이러한 RNN 기반 TSF 모델들은 IMS forecasting 기술에 포함되었다. (2) `Convolutional Neural Networks(CNNs)` 기반 모델들은 `local temporal features`를 포착하기 위해 convolutional filters를 사용한다. 디코더가 `autoregressive` 방식으로 구현되어었는지 여부에 따라 CNN 기반 TSF 방법에 대한 IMS 또는 DMS 예측 기술이 있다.
vanilla Transformer 모델을 LTSF 문제에 적용시킬 때에는 두 가지 한계점이 존재
original self-attention의 `quadractic` time/memory complxity
autoregressive decoder 설계로 인해 발생하는 `error accumulation`
`Informer`는 이러한 문제를 해결하기 위해 complexity를 줄이고, DMS 예측 전략을 사용하는 새로운 Transformer 아키텍처를 제시
이후 여러 Transformer 기반 모델들이 성능과 효율성을 개선하였고, 이러한 현재 Trasnformer 기반 LTSF 솔루션의 설계 요소를 요약하면 다음과 같음
Time series decomposition
data preprocessing 과정에서 `zero-mean normalization`은 흔하게 사용
`Autoformer`에서 `seasonal-trend decomposition`을 각 neural block 이전에 처음으로 적용
시계열 분석에서 raw data를 더욱 predictable하게 만드는 standard method
input sequence에서 `moving average kernels`을 통해 시계열 데이터의 `trend-cyclical component`를 추출
trend component와 origina sequence의 차이는 `seasonal component`로 간주된다는 것
`FEDformer`는 전문가의 전략과 다양한 kernel sizes의 moving average kernels로 추출한 trend components를 혼합한 형태를 제시
Autoformer는 original self-attention layer를 대체하는 `series-wise auto-correlation` 설계
Decoders
vanilla Transformer decoder는 autoregressive한 방법으로 outputs을 생성해 특히 long-term predictions에서 느린 추론 속도와 error accumulation 발생
Informer는 DMS forecasting을 위한 `generative-style decoder`를 설계
Pyraformer는 fully-connected layer를 Spatio-temporal axes와 concatenating하여 decoder로 사용
Autoformer는 최종 예측을 위해 trend-cyclical components와 seasonal components의 stacked auto-correlation 메커니즘을 통해 재정의된 decomposed features를 합침
FEDformer는 최종 결과를 decode하기 위해 frequency attention block을 통한 decomposition scheme를 사용
Transformer 모델의 핵심 전제는 paired elements 간의 semantic correlations
self-attention 자체는 permutation-invariant하며 temproal relations을 모델링하는 능력은 input tokens과 관련된 positional encoding에 크게 좌우됨
시계열의 numerical data를 고려해보면, 데이터 사이에는 `point-wise semantic correlations`가 거의 없음
시계열 모델링에서 가장 중요한 부분은 연속적인 데이터들의 집합에서의 `temporal relations`이며, 데이터 간의 순서가 Transformer의 핵심인 paired relationship보다 중요한 역할을 수행
positional encoding와 tokens을 사용하여 sub-series를 embedding하면 일부 ordering information을 보존할 수 있지만, permutation-invariant한 self-attention 메커니즘의 특성상 필연적으로 temporal information loss가 발생
4. An Embarrassingly Simple Baseline
Transformer 기반의 LTSF 솔루션의 모든 non-Transformer 비교군은 IMS forecasting 기술
IMS forecasting은 error accumulation effects가 발생하는 것으로 알려짐
LTSF 문제에서 DMS 전략을 사용하는 것이 성능 개선에 크게 도움이 될 것이라고 가정
이러한 가정을 확인하기 위해 temporal linear layer로 구성된 간단한 DMS 모델인 LTSF-Linear를 비교군으로 제안
LTSF-Linear의 기초 수식은 `weighted sum` 연산을 통해 미래 예측을 위해 과거 시계열 데이터를 직접 회귀하는 것
수학적 표현은 $\hat{X}_i = WX_i$
$W$는 시간축에 따라 $W \in \mathbb{R}^{T \times L}
$\hat{X}_i와 $X_i$는 각 $i$번째 변수의 미래 예측 값과 input
LSTF-Linear는 여러 변수에 걸쳐 가중치를 공유하며, `spatial correlations`을 모델링하지 않음`DLinear`와 `NLinear`는 다양한 도메인의 시계열을 처리하기 위해 Vanilla Linear에 두 가지 전처리 방법을 사용한 모델
LSTF-Linear는 DLinear, NLinear 등의 linear 모델들의 집합
DLinear : Autoformer와 FEDformer에서 사용한 `시계열 분해(Decomposition)` 방법과 linear layers를 결합한 모델
먼저 raw data input을 moving average kernel를 통해 `trend component` + `remainder(seasonal) component`로 분해
각 component에 one-layer linear layers가 한개씩 추가하고, 2개의 features를 합하여 최종 예측 생성
데이터에 명백한 trend가 있는 경우 DLinear는 vanilla Linear보다 좋은 성능을 보임
NLinear : 데이터셋에 `distribution shift`가 존재하는 경우 LTSF-Linear의 성능을 개선
input sequence의 가장 마지막 값을 빼고 linear layer에 입력한 후 최종 예측을 생성하기 이전에 앞서 제외된 부분을 다시 더해줌
NLinear의 subtraction과 addition은 input sequence의 간단한 `normalization`
💡 Motivation of NLinear : test data를 train data에 대한 mean과 variance로 정규화를 할 경우, testing data의 평균 값이 0이 아니기 때문에 testing `distribution shift`가 발생할 수 있다. 만약 모델이 실제 값의 분포에서 벗어나는 예측을 할 경우 large errors가 발생하게 될 것이다. 따라서 `NLinear`에서 `subtraction`과 `addition`을 사용하여 모델의 예측을 실제 값의 분포로 이동시킨다. 이를 통해 large errors를 피하게되고, 모델의 성능은 개선될 수 있다. Figure 5는 train set과 test set의 분포에 대한 히스토그램을 나타낸 것으로, 각 bar는 데이터 포인트의 개수를 나타낸다. ETTh1, ETTh2, ILI에서는 명확한 distribution shifts를 확인할 수 있다. 본 논문의 Table 9과 Table 2를 통해 해당 3개의 데이터셋에서 Linear에 비해 NLinear의 성능 향상을 확인할 수 있으며, distribution shifts를 완화시키는 NLinear의 효과 또한 확인할 수 있다. 추가적으로, Electricity channel3 데이터셋처럼 실제 train set과 test set 사이에 distribution shifts가 없는 경우, NLinear와 DLinear의 성능이 vanilla Linear와 크게 다르지 않아 vanilla Linear만으로도 충분하다.
input의 길이가 96 steps이고, output horizon이 336 steps일 때 Transformer는 Electricity와 ETTh2 데이터셋에서 미래 데이터의 scale과 bias를 포착하는데 실패
또한 Exchange-Rate 데이터셋에서도 적절한 trend를 예측하지 못함
이러한 현상들은 기존 Transformer 기반 솔루션이 LTSF 작업에 적합하지 않다는 것을 나타냄
More Analyses on LTSF-Transformers
Can existing LTSF-Transformers extract temporal relations well from longer input sequences?
`look-back window size`는 과거 데이터로부터 얼마만큼을 학습할 수 있는지를 결정하기 때문에 예측 정확도에 많은 영향을 끼침
강한 temporal relation 추출 능력을 가진 강력한 TSF 모델은 더 큰 look-back window sizes를 통해 더 좋은 결과를 얻어낼 수 있어야 함
look-back window sizes의 영향력을 연구하기 위해 long-term forecasting($T=720$)에 대해 $L \in \left\{24, 48, 72, 96, 120, 144, 168, 192, 336, 504, 672, 720 \right\}$으로 실험 진행
Transformer 기반 모델들의 성능은 기존 연구의 결과와 동일하게 look-back window size가 커지면서 성능이 악화되거나 안정적으로 유지
반면 LTSF-Linear 모델은 look-back windows sizes가 커짐에 따라 성능이 향상
기존에 솔루션은 더 긴 시퀀스가 주어지면 `temporal information`을 추출하는 대신 `temporal noises`에 `overfit`되는 경향이 있음
input size 96은 대부분의 Transformer에 정확하게 적합
What can be learned for long-term forecasting?
short-term time series forecasting에서는 look-back window의 `temporal dynamics`가 분명하게 예측 정확도에 영향을 끼침
그러나 long-term forecasting에서는 모델이 `trend`와 `periodicity`를 잘 포착할 수 있는지에 달렸다고 가정
즉, foreasting horizon이 멀어질수록 look-back window 자체의 영향이 감소
해당 가설을 확인하기 위해 동일한 720 time steps의 데이터에 두 가지의 다른 look-back windows를 적용하여 예측 정확도를 비교
original input $L = 96$ setting → `Close`
before the original input 96 time steps → `Far`
실험 결과 SOTA Transformers의 성능은 Far setting에서 조금씩 떨어지는데, 이는 모델이 인접한 시계열 시퀀스에서 유사한 temproal information만 포착한다는 것을 의미
데이터셋의 내재적 특성을 파악하는 데 일반적으로 많은 수의 파라미터가 필요하지 않으므로, 하나의 파라미터를 통해 periodicity를 나타낼 수 있음
너무 많은 파라미터를 사용하는 것은 overfitting을 유발할 것이고, 이는 LTSF-Linear의 성능이 Transformer보다 좋았던 것을 일부분 설명
Are the self-attention scheme effective for LTSF?
Informer와 같은 기존 Tranformer의 복잡한 설계가 꼭 필요한지 검증하기 위해 Informer를 점진적으로 Linear로 바꾸는 실험
$Att.-Linear$ : Informer의 모든 self-attention layer를 linear layer로 대체
self-attention layer는 가중치가 유동적으로 변경되는 fully-connected layer로 간주할 수 있음
$Embed + Linear$ : Informer에서 `FFN`과 같은 다른 보조적인 설계를 버리고 embedding layer와 linear layer만 남김
$Linear$ : 하나의 linear layer로 구성된 단순한 모델
실험 결과는 놀랍게도 Informer의 성능은 점진적으로 단순화할수록 향상되어 LTSF 벤치마크에서는 self-attention 체계 및 기타 복잡한 모듈이 필요하지 않음을 나타냄
Can existing LTSF-Transformers preserve temporal order well?
self-attention은 내재적으로 `permutation-invariant`, 즉 순서를 고려하지 않음
그러나 시계열 예측에서는 시퀀스의 순서가 종종 중요한 역할을 수행함
positional embedding, temporal embedding에도 불구하고 Transformer 기반 모델들은 temporal information loss를 겪는다고 주장
embedding 단계 이전에 raw input을 shuffle
$Shuf$ : 전체 input sequences를 랜덤하게 shuffle
$Half-Ex.$ : input sequence의 첫 번째 half와 두 번째 half를 교환
Exchange Rate 데이터셋에서 Tranformer 기반 모델들은 original setting과 비교했을 때 input sequence를 랜덤으로 shuffling해도 성능에 변동이 없음
반면 LTSF-Linear의 경우 성능이 확실하게 하락
다양한 positional & temporal embeddings을 사용하는 LTSF-Transformers은 꽤 제한된 temporal relations을 보존
노이즈가 많은 financial data에 overfit되기 쉬움
LTSF-Linear은 순서를 자연스럽게 모델링할 수 있으며, 적은 파라미터를 통해 overfitting을 피할 수 있음
FEDformer와 Autoformer는 time series `inductive bias`를 모델에 사용하여 Exchange Rate 데이터셋보다 더 명확한 temporal patterns(e.g., periodicity)이 있는 경우 특정 temporal information을 추출
전체 order information을 잃어버렸을 때 두 Transformer 모델은 성능이 하락
Informer는 inductive bias가 없기 때문에 shuffling된 데이터셋에 대해서도 성능이 비슷
전체적으로 LTSF-Linear 모델들이 Transformer 기반 모델들보다 평균적인 성능 하락이 모든 경우에 컸으며, 이는 Transformers 기반 모델들이 temporal order를 잘 보존하지 않는 것을 나타냄
How effective are different embedding strategies?
Transformer 기반 모델들에서 사용된 position & timestamp embeddings의 이점에 대해 확인
Informer는 positional embeddings가 없을 경우 예측 오류가 크게 증가
timestamp embeddings가 없는 경우에는 예측 길이가 길어짐에 따라 성능이 점차 하락
Informer가 각 토큰에 대해 단일 time step을 사용하기 때문에 temporal information을 토큰에 도입해야 함
FEDformer와 Autoformer는 각 토큰마다 단일 time step을 사용하지 않고 temporal information을 도입하기 위해 timestamps의 시퀀스를 입력
고정된 positional embeddings 없이도 비슷하거나 더 나은 성능을 달성
global temporal information loss 때문에 timestamp embeddings이 없으면 Autoformer의 성능은 빠르게 하락
FEDformer는 temporal inductive bias를 도입하기 위한 frequency-enhanced module 덕분에 position/timestamp embeddings을 제거해도 성능이 덜 하락
Is training data size a limiting factor for exsiting LTSF-Transformers?
어떤 사람들은 Transformer 기반 솔루션의 성능이 저조한 것이 벤치마크 데이터셋의 크기가 작기 때문이라 할 수 있음
computer vision 혹은 NLP tasks와는 다르게, TSF는 수집된 시계열에서 수행되므로 training data size를 키우는 것이 어려움
실제로 학습 데이터의 크기는 모델 성능에 상당한 영향을 미치기 때문에 데이터셋의 크기에 따른 실험을 설계
$Ori.$ : full dataset(17,544 * 0.7 hours)을 통해 훈련한 모델 성능
$Short.$ : shortened dataset(8,760 hours, 즉 1 year)을 통해 훈련한 모델 성능
기대와는 달리 실험 결과 더 작은 크기의 training data에서의 예측 오류가 더 작게 나옴
이는 whole-year data가 더 길지만 불완전한 data size보다 더 분명한 temporal features를 유지하기 때문으로 보임
training을 위해 더 적은 데이터를 써야 한다고 결론지을 수는 없지만, 이는 Autoformer와 FEDformer의 training data scale이 성능에 제한을 주는 요인은 아니란 것을 증명
Is efficiency really a top-level priority?
LTSF-Transformers는 vanilla Transformer의 $O(L^2)$에 해당하는 복잡도가 LTSF 문제에 부적합하다고 주장
비록 해당 연구들이 이론상 시간 및 메모리 복잡도를 $O(L^2)$에서 $O(L)$로 개선할 수 있음을 증명했지만, 불분명한 점들이 존재
실질적인 추론 시간과 devices의 메모리 비용이 개선되었는지
오늘날의 GPU(NVIDIA Titan XP 등)에서도 해당 메모리 이슈가 문제가 되는지
흥미롭게도 vanilla Transformer(동일한 DMS decoder)와 비교했을 때, 대부분의 Transformer를 변형한 모델들의 실제 추론 시간과 파라미터의 개수는 비슷하거나 더 나쁨
게다가 vanilla Transformer의 memory cost는 output length $L = 720$에서도 실질적으로 허용 가능한 수준이기 때문에 적어도 기존 벤치마크에서는 메모리 효울이 높은 Transformer의 개발의 중요성이 약화
6. Conclusion and Future work
Conclusion
본 논문은 long-term time series forecasting 문제에서 Transformer 기반 모델들의 효과에 대한 의문을 제시
놀라울만큼 간단한 linear model인 `LTSF-Linear`를 DMS forecasting baseline으로 삼아 본 논문의 주장을 검증
Future work
LSTF-Linear는 모델 용량이 제한되어 있어 여러 문제점이 발생하며, 향후 연구의 기준선 역할을 할 뿐임
one-layer linear network는 change points에 의해 발생하는 temporal dynamics를 포착하는 데 어려움이 있음
새로운 모델 설계와 데이터 전처리, 벤치마크 등을 통해 까다로운 LTSF 문제를 해결할 가능성이 있음