Are Transformers Effective for Time Series Forecasting?
0. Abstract
- `Long-term Time Series Forecasting(LTSF)` 문제의 해결책으로 `Transformer` 기반의 모델들이 급증
- Transformers는 틀림없이 long sequence의 요소들의 `semantic correlations`을 추출하는데 가장 성공적인 해결책
- 그러나 시계열 모델링에서는 연속된 점들의 순서화된 집합에서 시간적 관계를 추출해야 함
- Transformers는ordering information을 보존하는데 용이한 `positional encoding`과 `tokens`을 사용하여 sub-series를 embedding
- 이 경우 self-attention 메커니즘의 `permutation-invariant` 특성으로 인해 필연적으로 `temproal information`의 손실이 발생
- 이러한 주장을 평가하기 위해 `LTSF-Linear`라는 이름의 매우 단순한 one-layer linear 모델을 통해 비교
- 9개의 real-life 데이터셋을 통한 실험 결과에서 현존하는 정교한 Transformer 기반 LTSF 모델들보다 좋은 성능을 보임
- 추가적으로 LTSF 모델의 구성 요소들의 temporal relation 추출 능력에 대한 영향력을 비교
1. Introduction
- Transformer는 NLP, speech recognition, computer vision 등의 분야에서 가장 성공적인 sequence-modeling 아키텍처
- 최근에는 시계열 분석에도 Transformer 기반 솔루션들이 급증
- `LongTrans`, `Informer`, `Autoformer`, `Pyraformer`, `FED-former` 등이 LTSF 문제에서 주목할만한 모델
- Transformers의 가장 주요한 부분은 multi-head self-attention 메커니즘으로, long sequence의 요소들 간의 `semantic correlations`을 효과적으로 추출
- self-attention은 `permutation-invariant`하며 `anti-order`하여 temporal information loss를 피할 수 없음
- 다양한 positional encoding 기술을 사용하면 몇몇 `ordering information`을 보존할 수 있지만, 그 이후 self-attention을 적용하면 이 또한 손실을 피할 수 없음
- 문장의 일부 단어의 순서를 바꾸더라도 문장의 의미론적 의미는 대부분 유지되는 NLP와 같은 경우 크게 상관 x
- 시계열 데이터를 분석하는 경우, numerical data 내에는 이러한 `semantics`가 부족하여 문제가 됨
- 본 논문은 이러한 teporal changes를 `continuous set of points`를 통해 모델링하여 데이터의 순서가 매우 중요한 역할을 수행
- Transformer 기반 LTSF 솔루션들은 기존 방법론들에 비해 개선된 예측 정확도를 보임
- 그러나 해당 실험에서 non-Transformer 기반의 비교군들은 LTSF 문제에서 error accumulation이 있다고 알려진 `autoregressive forecasting` 혹은 `Iterated Multi-Step(IMS) forecasting`
- 본 논문에선 실제 성능을 확인하기위해 `Direct Multi-Step(DMS) forecasting`과 비교
- 장기 예측은 물론, 모든 시계열을 예측할 수 있는 것은 아니기 때문에 비교적 명확한 `추세(trend)`와 `주기성(periodicity)`을 가진 시계열에 대해서만 장기 예측이 가능하다는 가설을 세움
- 선형 모델은 이미 이러한 정보를 추출할 수 있기 때문에, 본 논문에선 당황스러울 정도로 간단한 `LTSF-Linear`라는 이름의 모델을 새로운 비교의 기준으로 제시
- LTSF-Linear는 `one-layer linear` 모델만을 통해 과거 시계열에 대한 회귀를 수행하여 미래 시계열을 직접 예측
- 교통, 에너지, 경제, 날씨, 재해 예측 등의 널리 사용되는 벤치마크 데이터셋을 통해 실험 진행
- 놀랍게도 LTSF-Linear는 모든 경우에서 복잡한 Transformer 기반 모델보다 성능을 앞섬
- 몇몇 경우에는 큰 차이(20~50%)의 성능을 보임
- 심지어 Transformer 기반 모델들의 주장과는 다르게 `look-back window sizes`의 증가에도 불구하고 예측 오류가 감소하지 않아 long sequences에서 temporal relations을 추출하는데 실패하는 것을 발견
- 본 논문의 contributions
- LSTF task에서의 Transformers의 효과에 대한 첫 번째 의문을 제기한 연구
- 간단한 one-layer linear models인 LTSF-Linear와 Transformer 기반 LTSF 솔루션들을 9개의 벤치마크 데이터셋을 통해 비교
- LTSF-Linear가 LTSF 문제의 새로운 baseline이 될 수 있음
- 기존 Transformer 기반 솔루션의 다양한 측면에 대한 연구 수행
- long inputs을 모델링하는 능력
- 시계열 order에 대한 sensitivity
- positional encoding과 sub-series embedding의 영향력
- 효율성 비교
- 결론적으로, 시계열에 대한 Transformer의 `temporal modeling` 기능은 적어도 기존 LTSF 벤치마크에서는 과장됨
2. preliminaries: TSF Problem Formulation
- historical data $X = \left\{X^t_1, ... , X^t_C \right\}^L_{t=1}$
- $L$ : 과거 데이터를 몇 개의 time step까지 사용할지 정하는 하이퍼파리미터(`Look-back window size`)
- $C$ : 변수
- $X^t_i$ : $i$번째 변수의 time step $t$에 대한 값
- 시계열 예측 task : $\hat{X} = \left\{\hat{X}^t_1, ... , \hat{X}^t_C \right\}^{L+T}_{t=L+1}$
- $T$ : future time steps
- $T>1$인 경우 IMS forecasting은 `single-step forecaster`를 학습하고, 이를 반복적으로 적용하여 `multi-step` 예측을 얻음
- DMS forecasting은 multi-step forecasting을 한번에 직접 optimize
- IMS forecasting은 DMS forecasting과 비교했을 때 autoregressive 추정 과정 덕분에 분산이 적지만, error accumulation 효과를 필연적으로 겪음
- IMS forecasting은 높은 정확도를 가진 single-step forecaster가 있고, future time steps $T$의 크기가 상대적으로 작을 때 선호
- DMS forecasting은 unbiased single-step forecasting 모델을 얻기 힘들거나, $T$가 큰 경우 더 정확한 예측을 생성
3. Transformer-Based LTSF Solutions
- Transformer 기반 모델은 NLP와 Computer Vision task에서 multi-head self-attention의 효과 덕분에 독보적인 성능을 보임
- Transformer 모델의 long-range dependencies를 포착하는 능력을 고려할 때, 대부분의 연구는 덜 탐구된 장기 예측 문제($T$ >> 1)에 초점을 맞춤
💡 Non-Transformer-Based TSF Solutions
: 1970년대에는 `ARIMA`, `exponential smoothing`, `structural models`와 같은 통계적 접근 방법들이 넓은 범위의 문제들에 사용되었다. 그러나, 일반적으로 통계적 방법에 사용되는 parametric 모델을 구축하기 위해선 상당한 도메인 전문 지식이 필요하다. 따라서 이러한 문제점을 해결하기 위해 많은 `Grandient Boosting Regression Tree(GBRT)`와 같은 ML 기술들이 인기를 얻었고, 이들은 데이터에에 기반한 방식으로 시계열의 `temporal dynamics`을 학습했다. 그러나 이 또한 여전히 feature engineering과 모델 설계에 대한 메뉴얼이 필요했다. 이후 풍부한 데이터를 통해 강력한 representation을 학습할 수 있는 능력을 가진 `Deep Neural Networks(DNNs)`가 등장하면서 다양한 딥러닝 기반 TSF 솔루션들이 제시되었고, 전통적인 방법보다 많은 경우에서 더 좋은 예측 정확도를 보여주었다.
Transformer 외에도 유명한 DNN 아키텍처 또한 시계열 예측에 적용되었다.
(1) `Recurrent Neural Networks(RNNs)` 기반 모델들은 과거 정보를 internal memory states에 압축적으로 요약하고, 예측을 위해 스스로를 recursive하게 업데이트한다. 이러한 RNN 기반 TSF 모델들은 IMS forecasting 기술에 포함되었다.
(2) `Convolutional Neural Networks(CNNs)` 기반 모델들은 `local temporal features`를 포착하기 위해 convolutional filters를 사용한다. 디코더가 `autoregressive` 방식으로 구현되어었는지 여부에 따라 CNN 기반 TSF 방법에 대한 IMS 또는 DMS 예측 기술이 있다.
- vanilla Transformer 모델을 LTSF 문제에 적용시킬 때에는 두 가지 한계점이 존재
- original self-attention의 `quadractic` time/memory complxity
- autoregressive decoder 설계로 인해 발생하는 `error accumulation`
- `Informer`는 이러한 문제를 해결하기 위해 complexity를 줄이고, DMS 예측 전략을 사용하는 새로운 Transformer 아키텍처를 제시
- 이후 여러 Transformer 기반 모델들이 성능과 효율성을 개선하였고, 이러한 현재 Trasnformer 기반 LTSF 솔루션의 설계 요소를 요약하면 다음과 같음
Time series decomposition
- data preprocessing 과정에서 `zero-mean normalization`은 흔하게 사용
- `Autoformer`에서 `seasonal-trend decomposition`을 각 neural block 이전에 처음으로 적용
- 시계열 분석에서 raw data를 더욱 predictable하게 만드는 standard method
- input sequence에서 `moving average kernels`을 통해 시계열 데이터의 `trend-cyclical component`를 추출
- trend component와 origina sequence의 차이는 `seasonal component`로 간주된다는 것
- `FEDformer`는 전문가의 전략과 다양한 kernel sizes의 moving average kernels로 추출한 trend components를 혼합한 형태를 제시
Input embedding strategies
- Transformer 아키텍처의 self-attention layer는 시계열의 `position information`을 보존하지 못함
- 그러나 시계열의 `local positional information`, 즉 시계열의 ordering은 매우 중요
- `hierarchial timestamps`(week, month, year), `agnostic timestamps`(holidays and events)와 같은 global temporal information 또한 유익한 정보
- 시계열 inputs의 `temporal context`를 강화하기 위해 SOTA Transformer 기반 모델들은 여러 embedding을 input sequence에 활용
- `fixed positional encoding`, `channel projection embedding`, `learnable temporal embeddings`
- temporal convolution layer를 통한 `temporal embeddings`, `learnable timestamps`
Self-attention schemes
- Transformers는 paired elements 간의 `semantic dependencies`를 추출하기 위해 self-attention 메커니즘 활용
- 최근 연구에서는 vanilla Transformer의 $O(L^2)$ time/memory complexity를 줄이기 위해 두 가지 전략 제시
- LogTrans와 Pyraformer는 self-attention 메커니즘에 `sparsity bias`를 도입
- LogTrans는 `Logsparse mask`를 사용하여 computational complexity를 $O(LlogL)$로 감소
- Pyraformer는 `hierarchically multi-scale temporal dependencies`를 포착하는 `pyramidal attention`을 통해 time/memory complexity를 $O(L)$로 감소
- Informer와 FEDformer는 self-attention matirx에 low-rank property를 사용
- Informer는 `ProbSparse self-attention` 메커니즘과 `self-attention distilling operation`을 통해 complexity를 $O(LlogL)$로 감소
- FEDformer는 random selection으로 `Fourier enhanced block`과 `wavelet enhanced block`을 설계해 complexity를 $O(L)$로 감소
- Autoformer는 original self-attention layer를 대체하는 `series-wise auto-correlation` 설계
- LogTrans와 Pyraformer는 self-attention 메커니즘에 `sparsity bias`를 도입
Decoders
- vanilla Transformer decoder는 autoregressive한 방법으로 outputs을 생성해 특히 long-term predictions에서 느린 추론 속도와 error accumulation 발생
- Informer는 DMS forecasting을 위한 `generative-style decoder`를 설계
- Pyraformer는 fully-connected layer를 Spatio-temporal axes와 concatenating하여 decoder로 사용
- Autoformer는 최종 예측을 위해 trend-cyclical components와 seasonal components의 stacked auto-correlation 메커니즘을 통해 재정의된 decomposed features를 합침
- FEDformer는 최종 결과를 decode하기 위해 frequency attention block을 통한 decomposition scheme를 사용
- Transformer 모델의 핵심 전제는 paired elements 간의 semantic correlations
- self-attention 자체는 permutation-invariant하며 temproal relations을 모델링하는 능력은 input tokens과 관련된 positional encoding에 크게 좌우됨
- 시계열의 numerical data를 고려해보면, 데이터 사이에는 `point-wise semantic correlations`가 거의 없음
- 시계열 모델링에서 가장 중요한 부분은 연속적인 데이터들의 집합에서의 `temporal relations`이며, 데이터 간의 순서가 Transformer의 핵심인 paired relationship보다 중요한 역할을 수행
- positional encoding와 tokens을 사용하여 sub-series를 embedding하면 일부 ordering information을 보존할 수 있지만, permutation-invariant한 self-attention 메커니즘의 특성상 필연적으로 temporal information loss가 발생
4. An Embarrassingly Simple Baseline
- Transformer 기반의 LTSF 솔루션의 모든 non-Transformer 비교군은 IMS forecasting 기술
- IMS forecasting은 error accumulation effects가 발생하는 것으로 알려짐
- LTSF 문제에서 DMS 전략을 사용하는 것이 성능 개선에 크게 도움이 될 것이라고 가정
- 이러한 가정을 확인하기 위해 temporal linear layer로 구성된 간단한 DMS 모델인 LTSF-Linear를 비교군으로 제안
- LTSF-Linear의 기초 수식은 `weighted sum` 연산을 통해 미래 예측을 위해 과거 시계열 데이터를 직접 회귀하는 것
- 수학적 표현은 $\hat{X}_i = WX_i$
- $W$는 시간축에 따라 $W \in \mathbb{R}^{T \times L}
- $\hat{X}_i와 $X_i$는 각 $i$번째 변수의 미래 예측 값과 input
- 수학적 표현은 $\hat{X}_i = WX_i$
- LSTF-Linear는 여러 변수에 걸쳐 가중치를 공유하며, `spatial correlations`을 모델링하지 않음`DLinear`와 `NLinear`는 다양한 도메인의 시계열을 처리하기 위해 Vanilla Linear에 두 가지 전처리 방법을 사용한 모델
- LSTF-Linear는 DLinear, NLinear 등의 linear 모델들의 집합
- DLinear : Autoformer와 FEDformer에서 사용한 `시계열 분해(Decomposition)` 방법과 linear layers를 결합한 모델
- 먼저 raw data input을 moving average kernel를 통해 `trend component` + `remainder(seasonal) component`로 분해
- 각 component에 one-layer linear layers가 한개씩 추가하고, 2개의 features를 합하여 최종 예측 생성
- 데이터에 명백한 trend가 있는 경우 DLinear는 vanilla Linear보다 좋은 성능을 보임
- NLinear : 데이터셋에 `distribution shift`가 존재하는 경우 LTSF-Linear의 성능을 개선
- input sequence의 가장 마지막 값을 빼고 linear layer에 입력한 후 최종 예측을 생성하기 이전에 앞서 제외된 부분을 다시 더해줌
- NLinear의 subtraction과 addition은 input sequence의 간단한 `normalization`
💡 Motivation of NLinear
: test data를 train data에 대한 mean과 variance로 정규화를 할 경우, testing data의 평균 값이 0이 아니기 때문에 testing `distribution shift`가 발생할 수 있다. 만약 모델이 실제 값의 분포에서 벗어나는 예측을 할 경우 large errors가 발생하게 될 것이다. 따라서 `NLinear`에서 `subtraction`과 `addition`을 사용하여 모델의 예측을 실제 값의 분포로 이동시킨다. 이를 통해 large errors를 피하게되고, 모델의 성능은 개선될 수 있다.
Figure 5는 train set과 test set의 분포에 대한 히스토그램을 나타낸 것으로, 각 bar는 데이터 포인트의 개수를 나타낸다. ETTh1, ETTh2, ILI에서는 명확한 distribution shifts를 확인할 수 있다. 본 논문의 Table 9과 Table 2를 통해 해당 3개의 데이터셋에서 Linear에 비해 NLinear의 성능 향상을 확인할 수 있으며, distribution shifts를 완화시키는 NLinear의 효과 또한 확인할 수 있다. 추가적으로, Electricity channel3 데이터셋처럼 실제 train set과 test set 사이에 distribution shifts가 없는 경우, NLinear와 DLinear의 성능이 vanilla Linear와 크게 다르지 않아 vanilla Linear만으로도 충분하다.
5. Experiments
Experimental Settings
Dataset
- 9개의 다변량 real-world 데이터셋 활용
- ETTh1, ETTh2, ETTm1, ETTm2, Traffic, Electricity, Weather, ILI, Exchange-Rate
Evaluation Metric
- `Mean Squared Error(MSE)`, `Mean Absolute Error(MAE)`
Compared Method
- 5개의 Transformer 기반 방법론
- FEDformer, Autoformer, Informer, Pyraformer, LogTrans
- naive DMS 방법론
- Closest Repeat : look-back window의 마지막 값을 반복
Comparison with Transformers
Quantative results
- LSTF-Linear는 변수 간의 correlations을 모델링하지 않았음에도 불구하고, SOTA 모델인 FEDformer를 대부분의 경우 multivariate forecasting에서 약 20%~50% 높은 성능을 보임
- NLinear와 DLinear는 distribution shift와 trend-seasonality features를 다루는 능력에서 우세
- univariate forecasting의 결과에서도 LTSF-Linear가 여전히 Transformer 기반 LTSF 솔루션들과 큰 차이를 보임
- Repeat 모델은 long-term seasonal data(e.g, Electricity and Traffic)에서 가장 좋지 않은 성능을 보였지만, Exchange-Rate 데이터셋에선 모든 Transformer 기반 모델들보다 나은 성능을 보임
- 이는 Transformer 기반 모델들이 학습 데이터의 갑작스러운 change noises에 overfit하여 잘못된 trend 예측으로 이어져 정확도가 크게 저하될 수 있음(Figure 3 확인)
- Repeat은 bias가 존재 x
Qualitative results
- 3개의 데이터셋에 대한 Transformer 기반 모델들과 LTSF-Linear 모델의 예측 결과
- Electricity(Sequence 1951, Variate 36), Exchange-Rate(Sequence 676, Variate 3), ETTh2(Sequence 1241, Variate 2)
- 해당 데이터셋은 각기 다른 temporal patterns을 보임
- input의 길이가 96 steps이고, output horizon이 336 steps일 때 Transformer는 Electricity와 ETTh2 데이터셋에서 미래 데이터의 scale과 bias를 포착하는데 실패
- 또한 Exchange-Rate 데이터셋에서도 적절한 trend를 예측하지 못함
- 이러한 현상들은 기존 Transformer 기반 솔루션이 LTSF 작업에 적합하지 않다는 것을 나타냄
More Analyses on LTSF-Transformers
Can existing LTSF-Transformers extract temporal relations well from longer input sequences?
- `look-back window size`는 과거 데이터로부터 얼마만큼을 학습할 수 있는지를 결정하기 때문에 예측 정확도에 많은 영향을 끼침
- 강한 temporal relation 추출 능력을 가진 강력한 TSF 모델은 더 큰 look-back window sizes를 통해 더 좋은 결과를 얻어낼 수 있어야 함
- look-back window sizes의 영향력을 연구하기 위해 long-term forecasting($T=720$)에 대해 $L \in \left\{24, 48, 72, 96, 120, 144, 168, 192, 336, 504, 672, 720 \right\}$으로 실험 진행
- Transformer 기반 모델들의 성능은 기존 연구의 결과와 동일하게 look-back window size가 커지면서 성능이 악화되거나 안정적으로 유지
- 반면 LTSF-Linear 모델은 look-back windows sizes가 커짐에 따라 성능이 향상
- 기존에 솔루션은 더 긴 시퀀스가 주어지면 `temporal information`을 추출하는 대신 `temporal noises`에 `overfit`되는 경향이 있음
- input size 96은 대부분의 Transformer에 정확하게 적합
What can be learned for long-term forecasting?
- short-term time series forecasting에서는 look-back window의 `temporal dynamics`가 분명하게 예측 정확도에 영향을 끼침
- 그러나 long-term forecasting에서는 모델이 `trend`와 `periodicity`를 잘 포착할 수 있는지에 달렸다고 가정
- 즉, foreasting horizon이 멀어질수록 look-back window 자체의 영향이 감소
- 해당 가설을 확인하기 위해 동일한 720 time steps의 데이터에 두 가지의 다른 look-back windows를 적용하여 예측 정확도를 비교
- original input $L = 96$ setting → `Close`
- before the original input 96 time steps → `Far`
- 실험 결과 SOTA Transformers의 성능은 Far setting에서 조금씩 떨어지는데, 이는 모델이 인접한 시계열 시퀀스에서 유사한 temproal information만 포착한다는 것을 의미
- 데이터셋의 내재적 특성을 파악하는 데 일반적으로 많은 수의 파라미터가 필요하지 않으므로, 하나의 파라미터를 통해 periodicity를 나타낼 수 있음
- 너무 많은 파라미터를 사용하는 것은 overfitting을 유발할 것이고, 이는 LTSF-Linear의 성능이 Transformer보다 좋았던 것을 일부분 설명
Are the self-attention scheme effective for LTSF?
- Informer와 같은 기존 Tranformer의 복잡한 설계가 꼭 필요한지 검증하기 위해 Informer를 점진적으로 Linear로 바꾸는 실험
- $Att.-Linear$ : Informer의 모든 self-attention layer를 linear layer로 대체
- self-attention layer는 가중치가 유동적으로 변경되는 fully-connected layer로 간주할 수 있음
- $Embed + Linear$ : Informer에서 `FFN`과 같은 다른 보조적인 설계를 버리고 embedding layer와 linear layer만 남김
- $Linear$ : 하나의 linear layer로 구성된 단순한 모델
- $Att.-Linear$ : Informer의 모든 self-attention layer를 linear layer로 대체
- 실험 결과는 놀랍게도 Informer의 성능은 점진적으로 단순화할수록 향상되어 LTSF 벤치마크에서는 self-attention 체계 및 기타 복잡한 모듈이 필요하지 않음을 나타냄
Can existing LTSF-Transformers preserve temporal order well?
- self-attention은 내재적으로 `permutation-invariant`, 즉 순서를 고려하지 않음
- 그러나 시계열 예측에서는 시퀀스의 순서가 종종 중요한 역할을 수행함
- positional embedding, temporal embedding에도 불구하고 Transformer 기반 모델들은 temporal information loss를 겪는다고 주장
- embedding 단계 이전에 raw input을 shuffle
- $Shuf$ : 전체 input sequences를 랜덤하게 shuffle
- $Half-Ex.$ : input sequence의 첫 번째 half와 두 번째 half를 교환
- Exchange Rate 데이터셋에서 Tranformer 기반 모델들은 original setting과 비교했을 때 input sequence를 랜덤으로 shuffling해도 성능에 변동이 없음
- 반면 LTSF-Linear의 경우 성능이 확실하게 하락
- 다양한 positional & temporal embeddings을 사용하는 LTSF-Transformers은 꽤 제한된 temporal relations을 보존
- 노이즈가 많은 financial data에 overfit되기 쉬움
- LTSF-Linear은 순서를 자연스럽게 모델링할 수 있으며, 적은 파라미터를 통해 overfitting을 피할 수 있음
- FEDformer와 Autoformer는 time series `inductive bias`를 모델에 사용하여 Exchange Rate 데이터셋보다 더 명확한 temporal patterns(e.g., periodicity)이 있는 경우 특정 temporal information을 추출
- 전체 order information을 잃어버렸을 때 두 Transformer 모델은 성능이 하락
- Informer는 inductive bias가 없기 때문에 shuffling된 데이터셋에 대해서도 성능이 비슷
- 전체적으로 LTSF-Linear 모델들이 Transformer 기반 모델들보다 평균적인 성능 하락이 모든 경우에 컸으며, 이는 Transformers 기반 모델들이 temporal order를 잘 보존하지 않는 것을 나타냄
How effective are different embedding strategies?
- Transformer 기반 모델들에서 사용된 position & timestamp embeddings의 이점에 대해 확인
- Informer는 positional embeddings가 없을 경우 예측 오류가 크게 증가
- timestamp embeddings가 없는 경우에는 예측 길이가 길어짐에 따라 성능이 점차 하락
- Informer가 각 토큰에 대해 단일 time step을 사용하기 때문에 temporal information을 토큰에 도입해야 함
- FEDformer와 Autoformer는 각 토큰마다 단일 time step을 사용하지 않고 temporal information을 도입하기 위해 timestamps의 시퀀스를 입력
- 고정된 positional embeddings 없이도 비슷하거나 더 나은 성능을 달성
- global temporal information loss 때문에 timestamp embeddings이 없으면 Autoformer의 성능은 빠르게 하락
- FEDformer는 temporal inductive bias를 도입하기 위한 frequency-enhanced module 덕분에 position/timestamp embeddings을 제거해도 성능이 덜 하락
Is training data size a limiting factor for exsiting LTSF-Transformers?
- 어떤 사람들은 Transformer 기반 솔루션의 성능이 저조한 것이 벤치마크 데이터셋의 크기가 작기 때문이라 할 수 있음
- computer vision 혹은 NLP tasks와는 다르게, TSF는 수집된 시계열에서 수행되므로 training data size를 키우는 것이 어려움
- 실제로 학습 데이터의 크기는 모델 성능에 상당한 영향을 미치기 때문에 데이터셋의 크기에 따른 실험을 설계
- $Ori.$ : full dataset(17,544 * 0.7 hours)을 통해 훈련한 모델 성능
- $Short.$ : shortened dataset(8,760 hours, 즉 1 year)을 통해 훈련한 모델 성능
- 기대와는 달리 실험 결과 더 작은 크기의 training data에서의 예측 오류가 더 작게 나옴
- 이는 whole-year data가 더 길지만 불완전한 data size보다 더 분명한 temporal features를 유지하기 때문으로 보임
- training을 위해 더 적은 데이터를 써야 한다고 결론지을 수는 없지만, 이는 Autoformer와 FEDformer의 training data scale이 성능에 제한을 주는 요인은 아니란 것을 증명
Is efficiency really a top-level priority?
- LTSF-Transformers는 vanilla Transformer의 $O(L^2)$에 해당하는 복잡도가 LTSF 문제에 부적합하다고 주장
- 비록 해당 연구들이 이론상 시간 및 메모리 복잡도를 $O(L^2)$에서 $O(L)$로 개선할 수 있음을 증명했지만, 불분명한 점들이 존재
- 실질적인 추론 시간과 devices의 메모리 비용이 개선되었는지
- 오늘날의 GPU(NVIDIA Titan XP 등)에서도 해당 메모리 이슈가 문제가 되는지
- 흥미롭게도 vanilla Transformer(동일한 DMS decoder)와 비교했을 때, 대부분의 Transformer를 변형한 모델들의 실제 추론 시간과 파라미터의 개수는 비슷하거나 더 나쁨
- 게다가 vanilla Transformer의 memory cost는 output length $L = 720$에서도 실질적으로 허용 가능한 수준이기 때문에 적어도 기존 벤치마크에서는 메모리 효울이 높은 Transformer의 개발의 중요성이 약화
6. Conclusion and Future work
Conclusion
- 본 논문은 long-term time series forecasting 문제에서 Transformer 기반 모델들의 효과에 대한 의문을 제시
- 놀라울만큼 간단한 linear model인 `LTSF-Linear`를 DMS forecasting baseline으로 삼아 본 논문의 주장을 검증
Future work
- LSTF-Linear는 모델 용량이 제한되어 있어 여러 문제점이 발생하며, 향후 연구의 기준선 역할을 할 뿐임
- one-layer linear network는 change points에 의해 발생하는 temporal dynamics를 포착하는 데 어려움이 있음
- 새로운 모델 설계와 데이터 전처리, 벤치마크 등을 통해 까다로운 LTSF 문제를 해결할 가능성이 있음