系列文章鏈接
數(shù)據(jù)解讀參考:數(shù)據(jù)基礎(chǔ):多維時(shí)序數(shù)據(jù)集簡介
論文一:2022 Anomaly Transformer:異常分?jǐn)?shù)預(yù)測
論文二:2022 TransAD:異常分?jǐn)?shù)預(yù)測
論文三:2023 TimesNet:基于卷積的多任務(wù)模型
論文鏈接:Anomaly Transformer.pdf
代碼鏈接:https://github.com/thuml/Anomaly-Transformer
視頻講解(原作者禁止轉(zhuǎn)載,聯(lián)系的話侵刪):https://www.bilibili.com/video/BV1CN4y1A7x6/?spm_id_from=333.337.search-card.all.click&vd_source=c912801c215d811162cae4db751b0768
本文是清華大學(xué)研究生提出的一種異常檢測模型,是基于transformer針對(duì)時(shí)序數(shù)據(jù)進(jìn)行編碼的方案,整體方案讓人耳目一新。文章來源:http://www.zghlxwxcb.cn/news/detail-633004.html
本文的創(chuàng)新點(diǎn)總結(jié):文章來源地址http://www.zghlxwxcb.cn/news/detail-633004.html
- 提出了Anomaly-Attention模塊,該模塊有兩大亮點(diǎn):
2.1 prior-association:如下圖上半部分所示,采用高斯分布去擬合樣本時(shí)間點(diǎn)位和鄰近點(diǎn)位的數(shù)據(jù)分布,通過調(diào)整參數(shù) σ \sigma σ得到高斯先驗(yàn)分布,更注重局部數(shù)據(jù)分布, l l l層的高斯分布計(jì)算表示為: P l = R e s c a l e ( [ 1 2 π σ i e x p ( ? ∣ j ? i ∣ 2 2 σ i 2 ) ] i , j ∈ 1 , 2 , . . . , N ) P^l=Rescale([\frac{1}{\sqrt {2\pi\sigma_i}}exp(-\frac{|j-i|^2}{2\sigma_i^2})]_{i,j\in{1,2,...,N}}) Pl=Rescale([2πσi??1?exp(?2σi2?∣j?i∣2?)]i,j∈1,2,...,N?)
2.2 series-association:采用transformer中的注意力機(jī)制進(jìn)行時(shí)序數(shù)據(jù)建模,擬合上下文點(diǎn)位和目標(biāo)樣本點(diǎn)位間的權(quán)重關(guān)系,用于表示點(diǎn)位和更大范圍內(nèi)的上下文數(shù)據(jù)間的關(guān)聯(lián)性,更注重較大范圍內(nèi)的信息,如上圖下半部分所示, l l l層的注意力關(guān)聯(lián)計(jì)算為: S l = s o f t m a x ( Q K T d m o d e l ) S^l=softmax(\frac{QK^T}{\sqrt{d_{model}}}) Sl=softmax(dmodel??QKT?)正如上圖右邊所示,對(duì)于正常點(diǎn)位而言,其對(duì)應(yīng)臨近點(diǎn)高斯分布和上下文注意力分布之間差距會(huì)更大,因?yàn)檎|c(diǎn)位與上下文時(shí)序數(shù)據(jù)間關(guān)聯(lián)更大;對(duì)于異常點(diǎn)位而言,它和鄰近點(diǎn)位以及上下文時(shí)序數(shù)據(jù)的關(guān)聯(lián)性較小,屬于比較離群的狀態(tài),因此異常點(diǎn)位的兩種分布差異很??;可以通過這種差異性來區(qū)分正常點(diǎn)位和異常點(diǎn)位(??); - 提出了一種新的重構(gòu)損失構(gòu)建方法:
L
t
o
t
a
l
(
X
^
,
P
,
S
,
λ
;
X
)
=
∣
∣
X
?
X
^
∣
∣
F
2
?
λ
?
∣
∣
A
s
s
D
i
s
(
P
,
S
;
λ
;
X
)
∣
∣
1
L_{total}(\hat X,P,S,\lambda;X)=||X-\hat X||^2_F-\lambda*||AssDis(P,S;\lambda;X)||_1
Ltotal?(X^,P,S,λ;X)=∣∣X?X^∣∣F2??λ?∣∣AssDis(P,S;λ;X)∣∣1?左邊計(jì)算的是預(yù)測值和真實(shí)數(shù)據(jù)間的重構(gòu)損失,差距越大表示數(shù)據(jù)越異常,右邊表示的是高斯分布和注意力分布間的差值損失,差值越大表示數(shù)據(jù)越正常,因此是減去該損失,以此構(gòu)建的重構(gòu)損失能夠讓模型更好地學(xué)習(xí)到正常點(diǎn)位和異常點(diǎn)位之間的差異性;,訓(xùn)練過程中如果想讓分布間的距離變大,就容易導(dǎo)致高斯分布訓(xùn)練出來的
σ
\sigma
σ趨于0,最終呈現(xiàn)出如下圖的分布:
為此,他們?cè)O(shè)計(jì)了一種技巧叫Minimax Strategy,在最小化階段,先固定注意力模塊的權(quán)重不變,讓高斯分布的擬合向注意力權(quán)重分布靠近,讓 σ \sigma σ不至于過擬合;然后在最大化二者距離的時(shí)候,固定高斯分布的參數(shù),訓(xùn)練注意力模塊的權(quán)重,讓最終的兩種分布的距離變大,如下圖所示: - 最終的異常分通過下式計(jì)算: A n o m a l y S c o r e ( X ) = s o f t m a x ( ? A s s D i s ( P , S ; λ ; X ) ) ? [ ∣ ∣ X ? X ^ ∣ ∣ 2 2 ] i = 1 , 2 , . . . , N AnomalyScore(X)=softmax(-AssDis(P,S;\lambda;X))\bigodot [||X-\hat X||^2_2]_{i=1,2,...,N} AnomalyScore(X)=softmax(?AssDis(P,S;λ;X))?[∣∣X?X^∣∣22?]i=1,2,...,N?通過將重構(gòu)差異和分布距離進(jìn)行聯(lián)合能夠更好地進(jìn)行異常檢測,當(dāng)預(yù)測的異常分?jǐn)?shù)超過某個(gè)閾值時(shí),就認(rèn)為當(dāng)前點(diǎn)位為異常點(diǎn)位;
到了這里,關(guān)于【論文閱讀】基于深度學(xué)習(xí)的時(shí)序異常檢測——Anomaly Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!