【時(shí)間序列綜述】Transformer in Time Series：A Survey 論文筆記

這篇具有很好參考價(jià)值的文章主要介紹了【時(shí)間序列綜述】Transformer in Time Series：A Survey 論文筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

文章全名：Transformers in Time Series: A Survey

文章鏈接：[論文地址]([2202.07125v2] Transformers in Time Series: A Survey (arxiv.org))

來源：IJCAI 2023

完成單位：阿里巴巴達(dá)摩院、上海交通大學(xué)

摘要

Transformer在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域都取得了諸多成果，Transformer的捕獲長距離依賴和交互的能力非常適合應(yīng)用于時(shí)間序列分析之中。本文回顧了Transformer在時(shí)間序列建模上的優(yōu)點(diǎn)和不足。本文從兩個(gè)方面展開，一是總結(jié)了對(duì)Transformer模型的修改和適配，使其能夠更好應(yīng)用于時(shí)間序列分析；二是從應(yīng)用角度分析，根據(jù)任務(wù)分類為：預(yù)測(cè)、異常檢測(cè)和分類。本文討論并提出了未來的發(fā)展方向，以提供有用的研究指導(dǎo)。

Introduction

本文首先介紹了一下原始Transformer結(jié)構(gòu)，然后提出一種新的分類方式，基于模型修改和應(yīng)用兩個(gè)方面。在模型修改方面，本文從low-level模塊化，和high-level結(jié)構(gòu)化分別介紹了Transformer在時(shí)序分析上的使用。在應(yīng)用層面，總結(jié)了一些熱門任務(wù)的工作，比如預(yù)測(cè)、異常檢測(cè)和分類。對(duì)每種Transformer都分析其優(yōu)勢(shì)和不足。本文也進(jìn)行了豐富的實(shí)驗(yàn)，分析模型的魯棒性、模型參數(shù)量等。

Preliminaries of the Transformer

最初的Transformer

最初的Transformer是一種編解碼結(jié)構(gòu)，編碼結(jié)構(gòu)包含了一個(gè)多頭自注意力模塊和一個(gè)前饋網(wǎng)絡(luò)，解碼結(jié)構(gòu)在多頭自注意力模塊和前饋網(wǎng)絡(luò)之間插入了一個(gè)cross-attention模塊，來融合編碼器輸出的內(nèi)容。

關(guān)于Transformer及其變體網(wǎng)絡(luò)的介紹可以閱讀這篇文章

輸入編碼和位置編碼

絕對(duì)位置編碼

$E(t)_i= \begin{cases}\sin \left(\omega_i t\right) & i \% 2=0 \\ \cos \left(\omega_i t\right) & i \% 2=1\end{cases}$

$t$ 表示位置索引， $w_i$ 是每一維的頻率。

相對(duì)位置編碼

輸入元素之間的成對(duì)位置關(guān)系比元素的位置更有利，因此提出了相對(duì)的位置編碼方法。例如，其中一種方法是在注意機(jī)制的關(guān)鍵字上添加一個(gè)可學(xué)習(xí)的相對(duì)位置嵌入。

多頭注意力

$\operatorname{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V})=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{\mathbf{T}}}{\sqrt{D_k}}\right) \mathbf{V}$

注意力就是要決定V中哪些是更重要的，權(quán)重是由Q和K做點(diǎn)積得到的。

Transformer中使用了多頭自注意力，多頭的作用是能夠提取到不同模式下的注意力。

前饋網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)

前饋網(wǎng)絡(luò)是一個(gè)全連接網(wǎng)絡(luò)
$N\left(\mathbf{H}^{\prime}\right)=\operatorname{ReLU}\left(\mathbf{H}^{\prime} \mathbf{W}^1+\mathbf^1\right) \mathbf{W}^2+\mathbf^2$
在更深層次的模塊中，在每個(gè)模塊周圍插入一個(gè)殘差的連接模塊，后面跟著層歸一化模塊。
$\begin{aligned} \mathbf{H}^{\prime} & =\text { LayerNorm }(\operatorname{Self} \operatorname{Attn}(\mathbf{X})+\mathbf{X}), \\ \mathbf{H} & =\text { LayerNorm }\left(F F N\left(\mathbf{H}^{\prime}\right)+\mathbf{H}^{\prime}\right), \end{aligned}$

時(shí)間序列Transformer的分類

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

針對(duì)時(shí)間序列的網(wǎng)絡(luò)修改

位置編碼

由于時(shí)間序列的順序非常重要，所以將輸入信息的位置進(jìn)行編碼后輸入Transformer也非常重要。

一種常見的方法是將位置信息編碼成一個(gè)向量，然后直接作為一個(gè)額外的輸入輸入到模型中去。

最初的位置編碼

最初的位置編碼就是本文第二節(jié)提出的編碼方式，雖然這種方式能夠提取到一些位置信息，但是它們不能充分挖掘時(shí)間序列數(shù)據(jù)的重要特征。

可學(xué)習(xí)的位置編碼

可學(xué)習(xí)的位置編碼會(huì)更加靈活，并能夠適用于特定的任務(wù)。

Zerveas等人在Transformer中引入了嵌入層，該層與其他模型參數(shù)一起學(xué)習(xí)每個(gè)位置指標(biāo)的嵌入向量。Lim等人使用LSTM網(wǎng)絡(luò)對(duì)位置嵌入進(jìn)行編碼，目的是更好地利用時(shí)間序列中的順序排序信息。

時(shí)間戳編碼

對(duì)于現(xiàn)實(shí)世界中的時(shí)間序列，時(shí)間戳的信息是可以獲得的，這些信息可以被編碼作為輸入。

注意力模塊

Transformer的核心是自注意力模塊，它可以被看作是一個(gè)完全連接的層，其權(quán)重是根據(jù)輸入模式之間的成對(duì)相似性動(dòng)態(tài)生成的。因此，它與完全連接層具有相同的最大路徑長度，但參數(shù)數(shù)量要少得多，適用于建模長期依賴性。

通過第二節(jié)的介紹可以發(fā)現(xiàn)，自注意力的時(shí)空復(fù)雜度是 $\mathcal O(N^2)$ ， $N$ 是輸入時(shí)間序列的長度，因此當(dāng)序列長度特別長的時(shí)候這會(huì)成為一個(gè)計(jì)算瓶頸。

于是很多網(wǎng)絡(luò)被提出來降低計(jì)算的復(fù)雜度，大致可分為兩類，一類明確地將稀疏性偏差引入注意機(jī)制，如LogTrans和Pyraformer，另一類探索自注意矩陣的低秩性，加快計(jì)算速度，如Informer和FEDformer。

下表展示了各個(gè)方法的時(shí)空復(fù)雜度。

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

基于模型結(jié)構(gòu)的注意力創(chuàng)新

最近的工作在Transformer中引入了分層架構(gòu)，以考慮時(shí)間序列的不同層次信息。Informer在注意塊之間插入stride為2的max-pooling層，該層將樣本序列長度減半。Pyraformer設(shè)計(jì)了一種基于C-ary樹的注意機(jī)制，其中最細(xì)尺度上的節(jié)點(diǎn)對(duì)應(yīng)于原始時(shí)間序列，而粗尺度上的節(jié)點(diǎn)代表較低分辨率的序列。

時(shí)間序列Transformer的應(yīng)用

預(yù)測(cè)領(lǐng)域

時(shí)間序列預(yù)測(cè)

近年來，已經(jīng)進(jìn)行了大量工作設(shè)計(jì)新的Transformer變體，用于時(shí)間序列預(yù)測(cè)任務(wù)。模塊級(jí)別和結(jié)構(gòu)級(jí)別是兩個(gè)大的類別，前者包括最新工作的大部分內(nèi)容。

模塊級(jí)別

模塊級(jí)別的更新往往還是使用最初Transformer的結(jié)構(gòu)，在此基礎(chǔ)上添加一些小的改動(dòng)。大致包含三種類型：設(shè)計(jì)新的注意力模塊，探索新的標(biāo)準(zhǔn)化時(shí)間序列數(shù)據(jù)的方法，利用輸入數(shù)據(jù)的bias

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

設(shè)計(jì)新的注意力模塊

以下這些注意力方式都利用稀疏歸納偏置或低秩逼近來消除噪聲，并實(shí)現(xiàn)低階計(jì)算復(fù)雜度。

LogTrans提出了卷積自注意力，通過隨機(jī)卷積在自注意力層來生成查詢和鍵，并引入了一個(gè)稀疏偏置，Logsparse mask，來降低計(jì)算復(fù)雜度。

Informer通過計(jì)算查詢和鍵的相似度來選出了最重要的查詢，從而降低了計(jì)算復(fù)雜度，并且還設(shè)計(jì)了一種生成式的解碼器來直接生成長距離的預(yù)測(cè)，從而避免了單步預(yù)測(cè)在長距離預(yù)測(cè)可能會(huì)引入的累計(jì)錯(cuò)誤。

AST使用了一個(gè)生成對(duì)抗編解碼器結(jié)構(gòu)來訓(xùn)練出一個(gè)稀疏的Transformer模型來進(jìn)行時(shí)間序列預(yù)測(cè)，它表明對(duì)抗訓(xùn)練能夠提升預(yù)測(cè)效果，因?yàn)樗苤苯铀茉斐鲚敵龅姆植记闆r，來避免單步預(yù)測(cè)可能導(dǎo)致的累計(jì)錯(cuò)誤。

Pyraformer設(shè)計(jì)了一種帶有二叉樹跟隨路徑的分層金字塔注意模塊，以捕獲具有線性時(shí)間和內(nèi)存復(fù)雜度的不同范圍的時(shí)間依賴性。

FEDformer設(shè)計(jì)了兩個(gè)注意模塊，分別用傅里葉變換和小波變換處理頻域中的注意操作。它通過傅里葉變換中的隨機(jī)模式部分實(shí)現(xiàn)了線性復(fù)雜度。需要指出的是，自 Autoformer 和 FEDformer 以來，時(shí)間序列在頻域或時(shí)頻域中的獨(dú)特屬性引起了更多的關(guān)注。

標(biāo)準(zhǔn)化時(shí)間序列數(shù)據(jù)

Liu等人提出了Non-stationary Transformer，它探索了時(shí)間序列預(yù)測(cè)任務(wù)中的過度平穩(wěn)化問題，并且提出了一種去平穩(wěn)化的模塊來提升注意力塊的表現(xiàn)。

利用輸入偏置

Autoformer采用了一種基于分割的表示機(jī)制，它設(shè)計(jì)了一種簡(jiǎn)單的季節(jié)性趨勢(shì)分解架構(gòu)。它測(cè)量輸入信號(hào)之間的時(shí)延相似性，并聚合前 k 個(gè)相似的子序列以產(chǎn)生具有降低復(fù)雜度 O(LlogL) 的輸出。

長時(shí)間序列預(yù)測(cè)之Autoformer 詳解及實(shí)踐 - 知乎 (zhihu.com)

時(shí)空數(shù)據(jù)預(yù)測(cè)

在時(shí)空預(yù)測(cè)中，我們需要同時(shí)考慮時(shí)間依賴性和時(shí)空依賴性來進(jìn)行準(zhǔn)確的預(yù)測(cè)。 Traffic Transformer 設(shè)計(jì)了一個(gè)編碼器-解碼器結(jié)構(gòu)，使用自注意力模塊來捕獲時(shí)間-時(shí)間依賴關(guān)系，并使用圖神經(jīng)網(wǎng)絡(luò)模塊來捕獲空間依賴關(guān)系。用于交通流預(yù)測(cè)的時(shí)空 Transformer 網(wǎng)絡(luò)更進(jìn)一步，除了引入時(shí)間 Transformer 模塊來捕獲時(shí)間依賴關(guān)系外，它還設(shè)計(jì)了一個(gè)空間 Transformer 模塊來輔助圖卷積網(wǎng)絡(luò)捕獲更多的空間空間依賴關(guān)系。此外，時(shí)空?qǐng)D Transformer 網(wǎng)絡(luò)設(shè)計(jì)了一種基于注意力的圖卷積機(jī)制來學(xué)習(xí)更復(fù)雜的時(shí)空注意力模式，以改進(jìn)行人軌跡預(yù)測(cè)。

異常檢測(cè)領(lǐng)域

在很多研究中，研究者將Transformer與生成模型比如VAE和GAN結(jié)合，來進(jìn)行異常檢測(cè)。

TranAD提出了一種對(duì)抗訓(xùn)練策略來放大重構(gòu)的誤差，來訓(xùn)練出一個(gè)基于Transformer的模型，它會(huì)遺漏一些小偏差的異常。GAN風(fēng)格的對(duì)抗訓(xùn)練是由兩個(gè)Transformer編碼器和解碼器構(gòu)成，來獲得穩(wěn)定性，消融實(shí)驗(yàn)表明如果Transformer結(jié)構(gòu)被替代，F(xiàn)1分?jǐn)?shù)會(huì)下降很多，表明Transformer結(jié)構(gòu)在異常檢測(cè)上的作用。

MT-RVAE和TransAnomaly將VAE與Transformer相結(jié)合，但它們具有不同的目的。TransAnomaly將VAE與Transformer相結(jié)合，以允許更多的并行化，將訓(xùn)練成本減少近80％。在MT-RVAE中，設(shè)計(jì)了一個(gè)多尺度Transformer來提取和集成不同尺度的時(shí)間序列信息。它克服了傳統(tǒng)Transformer的僅提取局部信息進(jìn)行順序分析的缺點(diǎn)。

GTA將Transformer與基于圖的學(xué)習(xí)架構(gòu)相結(jié)合，用于多變量時(shí)間序列異常檢測(cè)。請(qǐng)注意，MT-RVAE也是用于多變量時(shí)間序列，但其維度較少或序列之間的關(guān)系不足，因此圖神經(jīng)網(wǎng)絡(luò)模型效果不佳。為應(yīng)對(duì)這種挑戰(zhàn)，MT-RVAE修改了位置編碼模塊并引入了特征學(xué)習(xí)模塊。相反，GTA包含一個(gè)圖卷積結(jié)構(gòu)來模擬影響傳播過程。與MT-RVAE類似，GTA也考慮“全局”信息，但通過將普通多頭注意力替換為多分支注意力機(jī)制來實(shí)現(xiàn)，即全局學(xué)習(xí)注意力、普通多頭注意力和鄰域卷積的組合。

AnomalyTrans將Transformer和高斯先驗(yàn)關(guān)聯(lián)相結(jié)合，使異常更易于區(qū)分。與TranAD具有類似的動(dòng)機(jī)，但AnomalyTrans采用了不同的實(shí)現(xiàn)方式。其洞察力在于，與正常情況相比，異常更難與整個(gè)時(shí)間序列建立強(qiáng)關(guān)聯(lián)，但更容易與相鄰時(shí)間點(diǎn)建立關(guān)聯(lián)。在AnomalyTrans中，先驗(yàn)關(guān)聯(lián)和序列關(guān)聯(lián)同時(shí)建模。除了重構(gòu)損失外，異常模型還通過極小極大策略進(jìn)行優(yōu)化，以限制先驗(yàn)關(guān)聯(lián)和序列關(guān)聯(lián)以獲得更易于區(qū)分的關(guān)聯(lián)差異。

分類領(lǐng)域

由于Transformer在捕捉長期依賴方面具有突出的能力，因此已被證明在各種時(shí)間序列分類任務(wù)中非常有效。GTN使用兩個(gè)塔式Transformer，每個(gè)塔分別處理逐時(shí)間步的注意力和逐通道的注意力。為了合并兩個(gè)塔的特征，使用了可學(xué)習(xí)的加權(quán)拼接（也稱為“門控”）。Transformer的這種擴(kuò)展在13個(gè)多變量時(shí)間序列分類中實(shí)現(xiàn)了最先進(jìn)的結(jié)果。[Ru?wurm和K¨orner，2020] 研究了基于自注意力的Transformer用于原始光學(xué)衛(wèi)星時(shí)間序列分類，并與遞歸和卷積神經(jīng)網(wǎng)絡(luò)相比獲得了最佳結(jié)果。最近，TARNet [Chowdhury等，2022] 設(shè)計(jì)了Transformer來學(xué)習(xí)任務(wù)感知的數(shù)據(jù)重建，以增強(qiáng)分類性能，它利用注意力分?jǐn)?shù)進(jìn)行重要時(shí)間戳掩蔽和重構(gòu)，并帶來了更優(yōu)越的性能。

預(yù)訓(xùn)練的Transformer也在分類任務(wù)中進(jìn)行了研究。[Yuan和Lin，2020] 研究了用于原始光學(xué)衛(wèi)星圖像時(shí)間序列分類的Transformer。由于標(biāo)記數(shù)據(jù)有限，作者使用了自監(jiān)督預(yù)訓(xùn)練模式。[Zerveas等，2021] 引入了一種無監(jiān)督預(yù)訓(xùn)練框架，并使用按比例屏蔽的數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。然后將預(yù)訓(xùn)練模型在分類等下游任務(wù)中進(jìn)行微調(diào)。[Yang等，2021] 建議使用大規(guī)模預(yù)訓(xùn)練語音處理模型解決下游時(shí)間序列分類問題，并在30個(gè)流行的時(shí)間序列分類數(shù)據(jù)集上生成了19個(gè)有競(jìng)爭(zhēng)力的結(jié)果。

實(shí)驗(yàn)評(píng)估和討論

關(guān)于模型輸入序列長度的實(shí)驗(yàn)

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

可以發(fā)現(xiàn)大部分網(wǎng)絡(luò)對(duì)于長序列的表現(xiàn)還是比較差的，說明對(duì)于長序列的信息網(wǎng)絡(luò)還是無法有效地去利用。

關(guān)于模型大小的實(shí)驗(yàn)

主要是對(duì)層數(shù)大小進(jìn)行實(shí)驗(yàn)。

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

關(guān)于季節(jié)性趨勢(shì)分解的實(shí)驗(yàn)

在最近的研究中，研究人員[Wu等，2021；Zhou等，2022；Lin等，2021；Liu等，2022a] 開始意識(shí)到季節(jié)趨勢(shì)分解[Cleveland等，1990；Wen等，2020]是Transformer在時(shí)間序列預(yù)測(cè)中性能的關(guān)鍵部分。如表4所示的實(shí)驗(yàn)，我們采用[Wu等，2021]提出的簡(jiǎn)單移動(dòng)平均季節(jié)趨勢(shì)分解架構(gòu)來測(cè)試各種注意力模塊。可以看到，簡(jiǎn)單的季節(jié)趨勢(shì)分解模型可以將模型的性能顯著提高50%至80%。這是一個(gè)獨(dú)特的模塊，通過分解提高性能似乎是Transformer在時(shí)間序列預(yù)測(cè)中的一個(gè)一致現(xiàn)象，值得進(jìn)一步研究更高級(jí)和精心設(shè)計(jì)的時(shí)間序列分解方案。

transformers in time series: a survey,Transformer,論文筆記,時(shí)間序列,transformer,論文閱讀,深度學(xué)習(xí)

未來的研究方向

時(shí)間序列Transformer的歸納偏差

Vanilla Transformer沒有對(duì)數(shù)據(jù)模式和特征做出任何假設(shè)。雖然它是用于建模長程依賴關(guān)系的通用和普適網(wǎng)絡(luò)，但它也有一個(gè)代價(jià)，即需要大量數(shù)據(jù)來訓(xùn)練Transformer以提高泛化能力并避免數(shù)據(jù)過擬合。時(shí)間序列數(shù)據(jù)的一個(gè)關(guān)鍵特征是其季節(jié)性/周期性和趨勢(shì)模式。一些最近的研究表明，將系列周期性[Wu等，2021]或頻率處理[Zhou等，2022]融入時(shí)間序列Transformer可以顯著提高性能。此外，有趣的是，一些研究采用了一個(gè)看似相反的歸納偏差，但兩者都取得了良好的數(shù)值改進(jìn)：[Nie等，2023]利用一個(gè)獨(dú)立于通道的注意力模塊去除了交叉通道的依賴性，而一項(xiàng)有趣的工作[Zhang和Yan，2023]則利用了雙階段注意力機(jī)制的交叉維度依賴性來提高實(shí)驗(yàn)性能。顯然，在這樣一個(gè)交叉通道學(xué)習(xí)范式中，我們有噪聲和信號(hào)，但是利用這種歸納偏差來壓制噪聲并提取信號(hào)的巧妙方法仍然是需要的。因此，一個(gè)未來的方向是考慮更有效的方法來引入基于對(duì)時(shí)間序列數(shù)據(jù)的理解和特定任務(wù)特征的歸納偏差到Transformer中。

將Transformer和GNN融合

多變量和時(shí)空時(shí)間序列在應(yīng)用中變得越來越普遍，需要額外的技術(shù)來處理高維度，特別是捕捉維度之間的潛在關(guān)系的能力。引入圖神經(jīng)網(wǎng)絡(luò)（GNN）是一種自然的方法來模擬維度之間的空間依賴或關(guān)系。最近的一些研究表明，GNN和Transformer/注意力的結(jié)合不僅可以帶來像交通預(yù)測(cè)[Cai等，2020；Xu等，2020]和多模態(tài)預(yù)測(cè)[Li等，2021]這樣的顯著性能改進(jìn)，而且還能更好地理解時(shí)空動(dòng)態(tài)和潛在因果性。將Transformer和GNN相結(jié)合以有效地進(jìn)行時(shí)空建模是一個(gè)重要的未來方向。

預(yù)訓(xùn)練Transformer

大規(guī)模預(yù)訓(xùn)練Transformer模型顯著提高了NLP [Kenton等，2019；Brown等，2020]和CV [Chen等，2021a]中各種任務(wù)的性能。然而，在時(shí)間序列方面，預(yù)訓(xùn)練Transformer的研究還很有限，現(xiàn)有的研究主要集中在時(shí)間序列分類[Zerveas等，2021；Yang等，2021]。因此，如何為時(shí)間序列中的不同任務(wù)開發(fā)適當(dāng)?shù)念A(yù)訓(xùn)練Transformer模型仍需在未來進(jìn)行研究。

結(jié)構(gòu)層面的改變

大數(shù)為時(shí)間序列開發(fā)的Transformer模型都保留了基本Transformer的架構(gòu)，主要在注意力模塊方面進(jìn)行了修改。我們可以借鑒NLP和CV中Transformer變體的思想，這些變體還具有針對(duì)不同目的的架構(gòu)級(jí)別模型設(shè)計(jì)，例如輕量級(jí)[Wu等，2020b；Mehta等，2021]，交叉塊連接[Bapna等，2018]，自適應(yīng)計(jì)算時(shí)間[Dehghani等，2019；Xin等，2020]和循環(huán)[Dai等，2019]。因此，一個(gè)未來的方向是考慮更多的針對(duì)時(shí)間序列數(shù)據(jù)和任務(wù)特定優(yōu)化的Transformer架構(gòu)級(jí)別設(shè)計(jì)。

參考文章

論文閱讀:Transformers in Time Series: A Survey - 知乎 (zhihu.com)

【AI論文】Transformers in Time Series: A Survey_黑符石的博客-CSDN博客文章來源地址http://www.zghlxwxcb.cn/news/detail-858756.html

到了這里，關(guān)于【時(shí)間序列綜述】Transformer in Time Series：A Survey 論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！