AAAI 2023 oral
1 Intro
- 自注意力計算是排列不變的(permutation-invariant)
- 雖然使用各種類型的position embedding和temporal embedding后,會保留一些order信息,但仍然時間信息可能會不可避免地丟失
- 本文質疑基于Transformer以進行時間序列預測的有效性
- 現(xiàn)有的基于Transformer的方法,通常比較的baseline是利用自回歸、自我迭代來進行預測
- 由于不可避免的誤差累積,故而這些baseline的長期預測能力會比較差
- 論文嘗試使用一種非常簡單的線性模型,直接進行多部預測
- 這個線性模型優(yōu)于所有Transformer的模型
- 同時大多數(shù)Transformer無法從長序列中提取有效的時間關系(預測誤差不會隨著sliding window的增加而減少)
- 由于并不是所有時間序列都是可以預測的,所以這里只研究趨勢和周期相對清晰的時間序列。
- 現(xiàn)有的基于Transformer的方法,通常比較的baseline是利用自回歸、自我迭代來進行預測
2? 現(xiàn)有模型
?論文筆記 Enhancing the Locality and Breaking the MemoryBottleneck of Transformer on Time Series Forecas_UQI-LIUWJ的博客-CSDN博客論文筆記:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting_UQI-LIUWJ的博客-CSDN博客論文筆記:Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting_UQI-LIUWJ的博客-CSDN博客?論文筆記:PYRAFORMER: LOW-COMPLEXITY PYRAMIDAL ATTENTION FOR LONG-RANGE TIME SERIES MODELING AND FORECAST_UQI-LIUWJ的博客-CSDN博客論文筆記:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting_UQI-LIUWJ的博客-CSDN博客
2.1 IMS(迭代多步)和DMS(直接多步)
- 與DMS預測結果相比,由于采用了自回歸模式,IMS預測的方差較小,但不可避免地會受到誤差累積效應的影響。
- 因此,當有一個高度準確的單步的predictor,且T相對較小時,IMS更可取。相比之下,當難以獲得無偏的單步預測模型或T較大時,DMS預測會生成更準確的預測
2.2 提出的模型
2.2.0 Linear
直接將N*T的輸入序列,通過一個線性層,輸出到N*T'的輸出序列
2.2.1 Dlinear
-
- 首先通過滑動平均將時間序列分成趨勢和周期
- 然后使用一層線性層(右圖),分別映射趨勢和周期
- 最后將 映射完成的趨勢和周期加和
舉例:
- 比如現(xiàn)在有一個10個變量的時間序列,歷史長度為100,我們要預測未來50個時間步
- 先將原來10*100維的時間序列矩陣分解成兩個10*100維的趨勢和周期時間序列
- 然后使用100*50的線性映射層,將趨勢和周期時間序列轉變成10*50維的兩個矩陣
- 將他們加和,得到10*50維的輸出,這個就是預測的結果
2.2.2 NLinear
- 輸入序列首先全部減去 序列的最后一個值
- 將減去后的序列送入一個線性層
- 得到預測結果后,將減去的部分加回來
- (可以將加法和減法看作輸入序列的規(guī)范化)
3 實驗部分
3.1 數(shù)據
3,2 實驗結果
?可以看到Linear/DLinear/NLinear效果比Transformer的好
3.3 預測結果可視化
可以看到Linear的效果依舊最好
3.4 輸入窗口大小和預測結果的關系
- 為了研究輸入回望窗口大小的影響,論文用L進行了實驗∈ {24、48、72、96、120、144、168、192、336、504、672、720}用于長期預測(T=720)。
- 下圖展示了兩個數(shù)據集的MSE結果。
可以看到有些基于Transformer的模型在回望窗口增大時性能會惡化或保持不變。
相比之下,所有LTSF Linear的性能都隨著輸入窗口大小的增加而顯著提高。
3.5? 自注意力對時間序列預測的影響
逐漸將Informer中的組成部分替換成Linear,發(fā)現(xiàn)性能隨著逐步簡化,而不斷提高
3.6 Transformer可以維持時間順序嘛?
在進行embedding 之前,對原始時間序列輸入進行shuffle:
- Shuf:隨機shuffle整個序列
- Half-Ex:shuffle一半的序列,然后將序列的前半部分和后半部分對調
?
- 與最初的設置相比,所有基于Transformer的方法的性能都沒有波動,即使輸入序列是隨機shuffle的。
- 相反,LTSF Linear的性能受到了嚴重損害。
- 這表明,具有不同位置和時間嵌入的transformer保留了非常有限的時間關系,并且容易在嘈雜的數(shù)據上過擬合,而LTSF線性可以自然建模順序,并且較少的參數(shù)也可以避免過擬合。
3.7 position embedding的有效性
- ?如果沒有position和temporal embedding,Informer的性能會大大下降(因為INformer是稀疏的逐點乘積attention)
- 而AutoFormer和FedFormer會對temporal embedding和position embedding的敏感度小一些
- AutoFormer是使用Auto-correlation代替逐點乘積attention
- FEDFormer是在譜域上的attention
- 他們都不是單個時間片的attention
3.8 是不是數(shù)據集的大小制約了Transformer的學習能力
Ori是一個完整的數(shù)據,Short是截斷了的數(shù)據
在這里,增加了數(shù)據,反而模型效果降低了。文章來源:http://www.zghlxwxcb.cn/news/detail-577559.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-577559.html
到了這里,關于論文筆記:Are Transformers Effective for Time Series Forecasting?的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!