文章全名:Transformers in Time Series: A Survey
文章鏈接:[論文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org))
來源:IJCAI 2023
完成單位:阿里巴巴達(dá)摩院、上海交通大學(xué)
摘要
Transformer在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域都取得了諸多成果,Transformer的捕獲長距離依賴和交互的能力非常適合應(yīng)用于時(shí)間序列分析之中。本文回顧了Transformer在時(shí)間序列建模上的優(yōu)點(diǎn)和不足。本文從兩個(gè)方面展開,一是總結(jié)了對(duì)Transformer模型的修改和適配,使其能夠更好應(yīng)用于時(shí)間序列分析;二是從應(yīng)用角度分析,根據(jù)任務(wù)分類為:預(yù)測(cè)、異常檢測(cè)和分類。本文討論并提出了未來的發(fā)展方向,以提供有用的研究指導(dǎo)。
Introduction
本文首先介紹了一下原始Transformer結(jié)構(gòu),然后提出一種新的分類方式,基于模型修改和應(yīng)用兩個(gè)方面。在模型修改方面,本文從low-level模塊化,和high-level結(jié)構(gòu)化分別介紹了Transformer在時(shí)序分析上的使用。在應(yīng)用層面,總結(jié)了一些熱門任務(wù)的工作,比如預(yù)測(cè)、異常檢測(cè)和分類。對(duì)每種Transformer都分析其優(yōu)勢(shì)和不足。本文也進(jìn)行了豐富的實(shí)驗(yàn),分析模型的魯棒性、模型參數(shù)量等。
Preliminaries of the Transformer
最初的Transformer
最初的Transformer是一種編解碼結(jié)構(gòu),編碼結(jié)構(gòu)包含了一個(gè)多頭自注意力模塊和一個(gè)前饋網(wǎng)絡(luò),解碼結(jié)構(gòu)在多頭自注意力模塊和前饋網(wǎng)絡(luò)之間插入了一個(gè)cross-attention模塊,來融合編碼器輸出的內(nèi)容。
關(guān)于Transformer及其變體網(wǎng)絡(luò)的介紹可以閱讀這篇文章
輸入編碼和位置編碼
絕對(duì)位置編碼
P E ( t ) i = { sin ? ( ω i t ) i % 2 = 0 cos ? ( ω i t ) i % 2 = 1 P E(t)_i= \begin{cases}\sin \left(\omega_i t\right) & i \% 2=0 \\ \cos \left(\omega_i t\right) & i \% 2=1\end{cases} PE(t)i?={sin(ωi?t)cos(ωi?t)?i%2=0i%2=1?
t
t
t表示位置索引,
w
i
w_i
wi?是每一維的頻率。
相對(duì)位置編碼
輸入元素之間的成對(duì)位置關(guān)系比元素的位置更有利,因此提出了相對(duì)的位置編碼方法。例如,其中一種方法是在注意機(jī)制的關(guān)鍵字上添加一個(gè)可學(xué)習(xí)的相對(duì)位置嵌入。
多頭注意力
Attention ? ( Q , K , V ) = softmax ? ( Q K T D k ) V \operatorname{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\mathbf{T}}}{\sqrt{D_k}}\right) \mathbf{V} Attention(Q,K,V)=softmax(Dk??QKT?)V
注意力就是要決定V中哪些是更重要的,權(quán)重是由Q和K做點(diǎn)積得到的。
Transformer中使用了多頭自注意力,多頭的作用是能夠提取到不同模式下的注意力。
前饋網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)
前饋網(wǎng)絡(luò)是一個(gè)全連接網(wǎng)絡(luò)
F
F
N
(
H
′
)
=
ReLU
?
(
H
′
W
1
+
b
1
)
W
2
+
b
2
F F N\left(\mathbf{H}^{\prime}\right)=\operatorname{ReLU}\left(\mathbf{H}^{\prime} \mathbf{W}^1+\mathbf^1\right) \mathbf{W}^2+\mathbf^2
FFN(H′)=ReLU(H′W1+b1)W2+b2
在更深層次的模塊中,在每個(gè)模塊周圍插入一個(gè)殘差的連接模塊,后面跟著層歸一化模塊。
H
′
=
?LayerNorm?
(
Self
?
Attn
?
(
X
)
+
X
)
,
H
=
?LayerNorm?
(
F
F
N
(
H
′
)
+
H
′
)
,
\begin{aligned} \mathbf{H}^{\prime} & =\text { LayerNorm }(\operatorname{Self} \operatorname{Attn}(\mathbf{X})+\mathbf{X}), \\ \mathbf{H} & =\text { LayerNorm }\left(F F N\left(\mathbf{H}^{\prime}\right)+\mathbf{H}^{\prime}\right), \end{aligned}
H′H?=?LayerNorm?(SelfAttn(X)+X),=?LayerNorm?(FFN(H′)+H′),?
時(shí)間序列Transformer的分類
針對(duì)時(shí)間序列的網(wǎng)絡(luò)修改
位置編碼
由于時(shí)間序列的順序非常重要,所以將輸入信息的位置進(jìn)行編碼后輸入Transformer也非常重要。
一種常見的方法是將位置信息編碼成一個(gè)向量,然后直接作為一個(gè)額外的輸入輸入到模型中去。
最初的位置編碼
最初的位置編碼就是本文第二節(jié)提出的編碼方式,雖然這種方式能夠提取到一些位置信息,但是它們不能充分挖掘時(shí)間序列數(shù)據(jù)的重要特征。
可學(xué)習(xí)的位置編碼
可學(xué)習(xí)的位置編碼會(huì)更加靈活,并能夠適用于特定的任務(wù)。
Zerveas等人在Transformer中引入了嵌入層,該層與其他模型參數(shù)一起學(xué)習(xí)每個(gè)位置指標(biāo)的嵌入向量。Lim等人使用LSTM網(wǎng)絡(luò)對(duì)位置嵌入進(jìn)行編碼,目的是更好地利用時(shí)間序列中的順序排序信息。
時(shí)間戳編碼
對(duì)于現(xiàn)實(shí)世界中的時(shí)間序列,時(shí)間戳的信息是可以獲得的,這些信息可以被編碼作為輸入。
注意力模塊
Transformer的核心是自注意力模塊,它可以被看作是一個(gè)完全連接的層,其權(quán)重是根據(jù)輸入模式之間的成對(duì)相似性動(dòng)態(tài)生成的。因此,它與完全連接層具有相同的最大路徑長度,但參數(shù)數(shù)量要少得多,適用于建模長期依賴性。
通過第二節(jié)的介紹可以發(fā)現(xiàn),自注意力的時(shí)空復(fù)雜度是 O ( N 2 ) \mathcal O(N^2) O(N2), N N N是輸入時(shí)間序列的長度,因此當(dāng)序列長度特別長的時(shí)候這會(huì)成為一個(gè)計(jì)算瓶頸。
于是很多網(wǎng)絡(luò)被提出來降低計(jì)算的復(fù)雜度,大致可分為兩類,一類明確地將稀疏性偏差引入注意機(jī)制,如LogTrans和Pyraformer,另一類探索自注意矩陣的低秩性,加快計(jì)算速度,如Informer和FEDformer。
下表展示了各個(gè)方法的時(shí)空復(fù)雜度。
基于模型結(jié)構(gòu)的注意力創(chuàng)新
最近的工作在Transformer中引入了分層架構(gòu),以考慮時(shí)間序列的不同層次信息。Informer在注意塊之間插入stride為2的max-pooling層,該層將樣本序列長度減半。Pyraformer設(shè)計(jì)了一種基于C-ary樹的注意機(jī)制,其中最細(xì)尺度上的節(jié)點(diǎn)對(duì)應(yīng)于原始時(shí)間序列,而粗尺度上的節(jié)點(diǎn)代表較低分辨率的序列。
時(shí)間序列Transformer的應(yīng)用
預(yù)測(cè)領(lǐng)域
時(shí)間序列預(yù)測(cè)
近年來,已經(jīng)進(jìn)行了大量工作設(shè)計(jì)新的Transformer變體,用于時(shí)間序列預(yù)測(cè)任務(wù)。模塊級(jí)別和結(jié)構(gòu)級(jí)別是兩個(gè)大的類別,前者包括最新工作的大部分內(nèi)容。
模塊級(jí)別
模塊級(jí)別的更新往往還是使用最初Transformer的結(jié)構(gòu),在此基礎(chǔ)上添加一些小的改動(dòng)。大致包含三種類型:設(shè)計(jì)新的注意力模塊,探索新的標(biāo)準(zhǔn)化時(shí)間序列數(shù)據(jù)的方法,利用輸入數(shù)據(jù)的bias
設(shè)計(jì)新的注意力模塊
以下這些注意力方式都利用稀疏歸納偏置或低秩逼近來消除噪聲,并實(shí)現(xiàn)低階計(jì)算復(fù)雜度。
LogTrans提出了卷積自注意力,通過隨機(jī)卷積在自注意力層來生成查詢和鍵,并引入了一個(gè)稀疏偏置,Logsparse mask,來降低計(jì)算復(fù)雜度。
Informer通過計(jì)算查詢和鍵的相似度來選出了最重要的查詢,從而降低了計(jì)算復(fù)雜度,并且還設(shè)計(jì)了一種生成式的解碼器來直接生成長距離的預(yù)測(cè),從而避免了單步預(yù)測(cè)在長距離預(yù)測(cè)可能會(huì)引入的累計(jì)錯(cuò)誤。
AST使用了一個(gè)生成對(duì)抗編解碼器結(jié)構(gòu)來訓(xùn)練出一個(gè)稀疏的Transformer模型來進(jìn)行時(shí)間序列預(yù)測(cè),它表明對(duì)抗訓(xùn)練能夠提升預(yù)測(cè)效果,因?yàn)樗苤苯铀茉斐鲚敵龅姆植记闆r,來避免單步預(yù)測(cè)可能導(dǎo)致的累計(jì)錯(cuò)誤。
Pyraformer設(shè)計(jì)了一種帶有二叉樹跟隨路徑的分層金字塔注意模塊,以捕獲具有線性時(shí)間和內(nèi)存復(fù)雜度的不同范圍的時(shí)間依賴性。
FEDformer設(shè)計(jì)了兩個(gè)注意模塊,分別用傅里葉變換和小波變換處理頻域中的注意操作。 它通過傅里葉變換中的隨機(jī)模式部分實(shí)現(xiàn)了線性復(fù)雜度。 需要指出的是,自 Autoformer 和 FEDformer 以來,時(shí)間序列在頻域或時(shí)頻域中的獨(dú)特屬性引起了更多的關(guān)注。
標(biāo)準(zhǔn)化時(shí)間序列數(shù)據(jù)
Liu等人提出了Non-stationary Transformer,它探索了時(shí)間序列預(yù)測(cè)任務(wù)中的過度平穩(wěn)化問題,并且提出了一種去平穩(wěn)化的模塊來提升注意力塊的表現(xiàn)。
利用輸入偏置
Autoformer采用了一種基于分割的表示機(jī)制,它設(shè)計(jì)了一種簡(jiǎn)單的季節(jié)性趨勢(shì)分解架構(gòu)。它測(cè)量輸入信號(hào)之間的時(shí)延相似性,并聚合前 k 個(gè)相似的子序列以產(chǎn)生具有降低復(fù)雜度 O(LlogL) 的輸出。
長時(shí)間序列預(yù)測(cè)之Autoformer 詳解及實(shí)踐 - 知乎 (zhihu.com)
時(shí)空數(shù)據(jù)預(yù)測(cè)
在時(shí)空預(yù)測(cè)中,我們需要同時(shí)考慮時(shí)間依賴性和時(shí)空依賴性來進(jìn)行準(zhǔn)確的預(yù)測(cè)。 Traffic Transformer 設(shè)計(jì)了一個(gè)編碼器-解碼器結(jié)構(gòu),使用自注意力模塊來捕獲時(shí)間-時(shí)間依賴關(guān)系,并使用圖神經(jīng)網(wǎng)絡(luò)模塊來捕獲空間依賴關(guān)系。 用于交通流預(yù)測(cè)的時(shí)空 Transformer 網(wǎng)絡(luò)更進(jìn)一步,除了引入時(shí)間 Transformer 模塊來捕獲時(shí)間依賴關(guān)系外,它還設(shè)計(jì)了一個(gè)空間 Transformer 模塊來輔助圖卷積網(wǎng)絡(luò)捕獲更多的空間空間依賴關(guān)系。 此外,時(shí)空?qǐng)D Transformer 網(wǎng)絡(luò)設(shè)計(jì)了一種基于注意力的圖卷積機(jī)制來學(xué)習(xí)更復(fù)雜的時(shí)空注意力模式,以改進(jìn)行人軌跡預(yù)測(cè)。
異常檢測(cè)領(lǐng)域
在很多研究中,研究者將Transformer與生成模型比如VAE和GAN結(jié)合,來進(jìn)行異常檢測(cè)。
TranAD提出了一種對(duì)抗訓(xùn)練策略來放大重構(gòu)的誤差,來訓(xùn)練出一個(gè)基于Transformer的模型,它會(huì)遺漏一些小偏差的異常。GAN風(fēng)格的對(duì)抗訓(xùn)練是由兩個(gè)Transformer編碼器和解碼器構(gòu)成,來獲得穩(wěn)定性,消融實(shí)驗(yàn)表明如果Transformer結(jié)構(gòu)被替代,F(xiàn)1分?jǐn)?shù)會(huì)下降很多,表明Transformer結(jié)構(gòu)在異常檢測(cè)上的作用。
MT-RVAE和TransAnomaly將VAE與Transformer相結(jié)合,但它們具有不同的目的。TransAnomaly將VAE與Transformer相結(jié)合,以允許更多的并行化,將訓(xùn)練成本減少近80%。在MT-RVAE中,設(shè)計(jì)了一個(gè)多尺度Transformer來提取和集成不同尺度的時(shí)間序列信息。它克服了傳統(tǒng)Transformer的僅提取局部信息進(jìn)行順序分析的缺點(diǎn)。
GTA將Transformer與基于圖的學(xué)習(xí)架構(gòu)相結(jié)合,用于多變量時(shí)間序列異常檢測(cè)。請(qǐng)注意,MT-RVAE也是用于多變量時(shí)間序列,但其維度較少或序列之間的關(guān)系不足,因此圖神經(jīng)網(wǎng)絡(luò)模型效果不佳。為應(yīng)對(duì)這種挑戰(zhàn),MT-RVAE修改了位置編碼模塊并引入了特征學(xué)習(xí)模塊。相反,GTA包含一個(gè)圖卷積結(jié)構(gòu)來模擬影響傳播過程。與MT-RVAE類似,GTA也考慮“全局”信息,但通過將普通多頭注意力替換為多分支注意力機(jī)制來實(shí)現(xiàn),即全局學(xué)習(xí)注意力、普通多頭注意力和鄰域卷積的組合。
AnomalyTrans將Transformer和高斯先驗(yàn)關(guān)聯(lián)相結(jié)合,使異常更易于區(qū)分。與TranAD具有類似的動(dòng)機(jī),但AnomalyTrans采用了不同的實(shí)現(xiàn)方式。其洞察力在于,與正常情況相比,異常更難與整個(gè)時(shí)間序列建立強(qiáng)關(guān)聯(lián),但更容易與相鄰時(shí)間點(diǎn)建立關(guān)聯(lián)。在AnomalyTrans中,先驗(yàn)關(guān)聯(lián)和序列關(guān)聯(lián)同時(shí)建模。除了重構(gòu)損失外,異常模型還通過極小極大策略進(jìn)行優(yōu)化,以限制先驗(yàn)關(guān)聯(lián)和序列關(guān)聯(lián)以獲得更易于區(qū)分的關(guān)聯(lián)差異。
分類領(lǐng)域
由于Transformer在捕捉長期依賴方面具有突出的能力,因此已被證明在各種時(shí)間序列分類任務(wù)中非常有效。GTN使用兩個(gè)塔式Transformer,每個(gè)塔分別處理逐時(shí)間步的注意力和逐通道的注意力。為了合并兩個(gè)塔的特征,使用了可學(xué)習(xí)的加權(quán)拼接(也稱為“門控”)。Transformer的這種擴(kuò)展在13個(gè)多變量時(shí)間序列分類中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。[Ru?wurm和K¨orner,2020] 研究了基于自注意力的Transformer用于原始光學(xué)衛(wèi)星時(shí)間序列分類,并與遞歸和卷積神經(jīng)網(wǎng)絡(luò)相比獲得了最佳結(jié)果。最近,TARNet [Chowdhury等,2022] 設(shè)計(jì)了Transformer來學(xué)習(xí)任務(wù)感知的數(shù)據(jù)重建,以增強(qiáng)分類性能,它利用注意力分?jǐn)?shù)進(jìn)行重要時(shí)間戳掩蔽和重構(gòu),并帶來了更優(yōu)越的性能。
預(yù)訓(xùn)練的Transformer也在分類任務(wù)中進(jìn)行了研究。[Yuan和Lin,2020] 研究了用于原始光學(xué)衛(wèi)星圖像時(shí)間序列分類的Transformer。由于標(biāo)記數(shù)據(jù)有限,作者使用了自監(jiān)督預(yù)訓(xùn)練模式。[Zerveas等,2021] 引入了一種無監(jiān)督預(yù)訓(xùn)練框架,并使用按比例屏蔽的數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。然后將預(yù)訓(xùn)練模型在分類等下游任務(wù)中進(jìn)行微調(diào)。[Yang等,2021] 建議使用大規(guī)模預(yù)訓(xùn)練語音處理模型解決下游時(shí)間序列分類問題,并在30個(gè)流行的時(shí)間序列分類數(shù)據(jù)集上生成了19個(gè)有競(jìng)爭(zhēng)力的結(jié)果。
實(shí)驗(yàn)評(píng)估和討論
關(guān)于模型輸入序列長度的實(shí)驗(yàn)
可以發(fā)現(xiàn)大部分網(wǎng)絡(luò)對(duì)于長序列的表現(xiàn)還是比較差的,說明對(duì)于長序列的信息網(wǎng)絡(luò)還是無法有效地去利用。
關(guān)于模型大小的實(shí)驗(yàn)
主要是對(duì)層數(shù)大小進(jìn)行實(shí)驗(yàn)。
關(guān)于季節(jié)性趨勢(shì)分解的實(shí)驗(yàn)
在最近的研究中,研究人員[Wu等,2021;Zhou等,2022;Lin等,2021;Liu等,2022a] 開始意識(shí)到季節(jié)趨勢(shì)分解[Cleveland等,1990;Wen等,2020]是Transformer在時(shí)間序列預(yù)測(cè)中性能的關(guān)鍵部分。如表4所示的實(shí)驗(yàn),我們采用[Wu等,2021]提出的簡(jiǎn)單移動(dòng)平均季節(jié)趨勢(shì)分解架構(gòu)來測(cè)試各種注意力模塊。可以看到,簡(jiǎn)單的季節(jié)趨勢(shì)分解模型可以將模型的性能顯著提高50%至80%。這是一個(gè)獨(dú)特的模塊,通過分解提高性能似乎是Transformer在時(shí)間序列預(yù)測(cè)中的一個(gè)一致現(xiàn)象,值得進(jìn)一步研究更高級(jí)和精心設(shè)計(jì)的時(shí)間序列分解方案。
未來的研究方向
時(shí)間序列Transformer的歸納偏差
Vanilla Transformer沒有對(duì)數(shù)據(jù)模式和特征做出任何假設(shè)。雖然它是用于建模長程依賴關(guān)系的通用和普適網(wǎng)絡(luò),但它也有一個(gè)代價(jià),即需要大量數(shù)據(jù)來訓(xùn)練Transformer以提高泛化能力并避免數(shù)據(jù)過擬合。時(shí)間序列數(shù)據(jù)的一個(gè)關(guān)鍵特征是其季節(jié)性/周期性和趨勢(shì)模式。一些最近的研究表明,將系列周期性[Wu等,2021]或頻率處理[Zhou等,2022]融入時(shí)間序列Transformer可以顯著提高性能。此外,有趣的是,一些研究采用了一個(gè)看似相反的歸納偏差,但兩者都取得了良好的數(shù)值改進(jìn):[Nie等,2023]利用一個(gè)獨(dú)立于通道的注意力模塊去除了交叉通道的依賴性,而一項(xiàng)有趣的工作[Zhang和Yan,2023]則利用了雙階段注意力機(jī)制的交叉維度依賴性來提高實(shí)驗(yàn)性能。顯然,在這樣一個(gè)交叉通道學(xué)習(xí)范式中,我們有噪聲和信號(hào),但是利用這種歸納偏差來壓制噪聲并提取信號(hào)的巧妙方法仍然是需要的。因此,一個(gè)未來的方向是考慮更有效的方法來引入基于對(duì)時(shí)間序列數(shù)據(jù)的理解和特定任務(wù)特征的歸納偏差到Transformer中。
將Transformer和GNN融合
多變量和時(shí)空時(shí)間序列在應(yīng)用中變得越來越普遍,需要額外的技術(shù)來處理高維度,特別是捕捉維度之間的潛在關(guān)系的能力。引入圖神經(jīng)網(wǎng)絡(luò)(GNN)是一種自然的方法來模擬維度之間的空間依賴或關(guān)系。最近的一些研究表明,GNN和Transformer/注意力的結(jié)合不僅可以帶來像交通預(yù)測(cè)[Cai等,2020;Xu等,2020]和多模態(tài)預(yù)測(cè)[Li等,2021]這樣的顯著性能改進(jìn),而且還能更好地理解時(shí)空動(dòng)態(tài)和潛在因果性。將Transformer和GNN相結(jié)合以有效地進(jìn)行時(shí)空建模是一個(gè)重要的未來方向。
預(yù)訓(xùn)練Transformer
大規(guī)模預(yù)訓(xùn)練Transformer模型顯著提高了NLP [Kenton等,2019;Brown等,2020]和CV [Chen等,2021a]中各種任務(wù)的性能。然而,在時(shí)間序列方面,預(yù)訓(xùn)練Transformer的研究還很有限,現(xiàn)有的研究主要集中在時(shí)間序列分類[Zerveas等,2021;Yang等,2021]。因此,如何為時(shí)間序列中的不同任務(wù)開發(fā)適當(dāng)?shù)念A(yù)訓(xùn)練Transformer模型仍需在未來進(jìn)行研究。
結(jié)構(gòu)層面的改變
大數(shù)為時(shí)間序列開發(fā)的Transformer模型都保留了基本Transformer的架構(gòu),主要在注意力模塊方面進(jìn)行了修改。我們可以借鑒NLP和CV中Transformer變體的思想,這些變體還具有針對(duì)不同目的的架構(gòu)級(jí)別模型設(shè)計(jì),例如輕量級(jí)[Wu等,2020b;Mehta等,2021],交叉塊連接[Bapna等,2018],自適應(yīng)計(jì)算時(shí)間[Dehghani等,2019;Xin等,2020]和循環(huán)[Dai等,2019]。因此,一個(gè)未來的方向是考慮更多的針對(duì)時(shí)間序列數(shù)據(jù)和任務(wù)特定優(yōu)化的Transformer架構(gòu)級(jí)別設(shè)計(jì)。
參考文章
論文閱讀:Transformers in Time Series: A Survey - 知乎 (zhihu.com)文章來源:http://www.zghlxwxcb.cn/news/detail-858756.html
【AI論文】Transformers in Time Series: A Survey_黑符石的博客-CSDN博客文章來源地址http://www.zghlxwxcb.cn/news/detail-858756.html
到了這里,關(guān)于【時(shí)間序列綜述】Transformer in Time Series:A Survey 論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!