《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》論文閱讀理解
領(lǐng)域:用于醫(yī)學(xué)圖像的異常檢測(cè)
論文地址:SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection
1 主要?jiǎng)訖C(jī)
對(duì)身體器官的射線掃描結(jié)果圖片中展示了詳細(xì)的結(jié)構(gòu)化信息,充分利用這種身體各個(gè)部分之間的結(jié)構(gòu)化信息,對(duì)檢測(cè)出身體存在的異常非常重要;
2 主要貢獻(xiàn)
- 提出了使用空間感知隊(duì)列來進(jìn)行圖片繪制和檢測(cè)圖片中存在的異常的方法(稱為SQUID);
- 在兩個(gè)胸部X射線基準(zhǔn)數(shù)據(jù)集上,本文所提出的SQUID在無監(jiān)督異常檢測(cè)方面超過了13種最先進(jìn)的方法至少5個(gè)百分點(diǎn);
- 本文還創(chuàng)建了一個(gè)新的數(shù)據(jù)集(DigitAnatomy),綜合了胸部解剖的空間相關(guān)性和一致形狀;
3 方法概述
3.1 訓(xùn)練過程
提出的模型可以根據(jù)遞歸解剖模式的空間位置對(duì)其進(jìn)行分類,從而動(dòng)態(tài)地維護(hù)視覺模式詞典。文中指出,由于解剖學(xué)的一致性,健康圖像中相同的身體區(qū)域有望表達(dá)相似的視覺模式,這使得異常模式的總數(shù)可以限定在一定范圍內(nèi)。
3.2 推理過程
訓(xùn)練過程得到的字典中不存在異常模式,因此,如果在推理時(shí)存在異常,那么所生成的射線圖像是不符合常理的。
4 方法詳述
流程詳述
本文提出的方法大致可以總結(jié)為如下:
首先,將輸入圖像劃分為
N
×
N
N\times N
N×N個(gè)不重疊的塊,并將它們輸入編碼器進(jìn)行特征提取。
然后,訓(xùn)練兩個(gè)生成器來重建原始的圖像,重建的同時(shí),創(chuàng)建一個(gè)解剖模式字典,并通過一個(gè)新的記憶隊(duì)列動(dòng)態(tài)更新;其中,教師生成器直接使用編碼器提取的特征,而學(xué)生生成器則使用由繪制塊增強(qiáng)的特征;教師生成器和學(xué)生生成器通過知識(shí)蒸餾的方式進(jìn)行耦合。
最后,使用鑒別器來評(píng)估學(xué)生生成器重建得到的圖像的真假。
上述過程經(jīng)過訓(xùn)練之后可以用于檢測(cè)圖像中是否存在缺陷。
4.1 總述
4.1.1 特征提取
特征提取模塊可以是任何骨干網(wǎng)絡(luò),文中使用了基本的卷積和池化層。
4.1.2 圖像重建
文中引入教師T和學(xué)生S生成器來重建原始圖像。在重建的過程中,解剖模式的字典將被創(chuàng)建并用于動(dòng)態(tài)更新記憶隊(duì)列。
具體來說,教師生成器使用編碼器(使用了自動(dòng)編碼器[1])提取的特征直接重建圖像。另一方面,學(xué)生生成器使用了在繪制模塊中增強(qiáng)的特征。教師和學(xué)生生成器通過知識(shí)提取范式[2]在所有上采樣水平上耦合。學(xué)生生成器的目標(biāo)是根據(jù)增強(qiáng)特征重建正常圖像,然后將其用于異常判別器中;而教師生成器則是用作防止學(xué)生不斷生成相同正常圖像的正則化器。
4.1.3 異常判別
使用鑒別器來評(píng)估生成的圖像是真的還是假的,值得注意的是,只有學(xué)生生成器進(jìn)行梯度下降優(yōu)化,教師生成器和學(xué)生生成器鑒別器同時(shí)競(jìng)爭(zhēng),直到兩個(gè)生成器在訓(xùn)練過程中收斂。經(jīng)過訓(xùn)練的鑒別器可用于檢測(cè)測(cè)試圖像中的異常。
4.2 將記憶隊(duì)列用作詞典
4.2.1 使用動(dòng)機(jī)
記憶隊(duì)列經(jīng)常被用作異常檢測(cè)任務(wù),為了創(chuàng)造“正?!蓖庥^,通過對(duì)記憶隊(duì)列中的相似模式進(jìn)行加權(quán)平均來增強(qiáng)特征。但是這種增強(qiáng)忽略了圖像中的空間信息而無法感知解剖圖像的一致性。
4.2.2 空間感知記憶機(jī)制
因此,為了解決上述存在的模型對(duì)空間感知能力不足的問題,將分割的小塊patch傳入到模型中,這些patch塊與原始圖像的唯一位置標(biāo)識(shí)符相關(guān)聯(lián)。
同時(shí),文中指出,為了保證位置信息的唯一編碼,將每個(gè)patch塊限制為只能由內(nèi)存矩陣中的非重疊區(qū)域訪問。即特定位置的patch快只能訪問記憶矩陣中的相應(yīng)段。如圖3所示。
4.2.3 內(nèi)存隊(duì)列
由于在記憶矩陣中“正常模式”的特征是通過組合矩陣中的學(xué)習(xí)基礎(chǔ)而形成的。但是,這種組合形成的正常特征實(shí)際上和實(shí)際圖像特征之間還存在一定的分布上的差異。
文中為了解決上述的問題,提出了一個(gè)內(nèi)存隊(duì)列來存儲(chǔ)模型訓(xùn)練期間的真實(shí)圖像特征,從而實(shí)現(xiàn)真實(shí)分布。在訓(xùn)練期間直接將之前輸入的特征復(fù)制到隊(duì)列結(jié)構(gòu)中,經(jīng)過訓(xùn)練之后,記憶隊(duì)列用作正常解剖模式的字典。為了驗(yàn)證該說法的準(zhǔn)確性,文中還提供了t-SNE可視化圖,來驗(yàn)證記憶矩陣中的學(xué)習(xí)基礎(chǔ)(藍(lán)色點(diǎn))和訓(xùn)練集的實(shí)際圖像特征(灰色點(diǎn))的分布不同。從圖4中可以看出,內(nèi)存隊(duì)列中存儲(chǔ)的紅色特征點(diǎn)和實(shí)際圖像特征具有相同的分布。
4.2.4 Gumbel shrinkage
文中指出,控制記憶存儲(chǔ)中的激活模式的數(shù)量對(duì)異常檢測(cè)是有利的。但是,單純使用topk個(gè)存儲(chǔ)中的模式進(jìn)行激活時(shí),存儲(chǔ)中剩下的模式將無法進(jìn)行梯度下降更新。為了實(shí)現(xiàn)所有存儲(chǔ)中的模式梯度得到更新,文中提出了一個(gè)Gumbel收縮模式:
w
′
=
s
g
(
h
s
(
w
,
t
o
p
k
(
w
)
)
?
?
(
w
)
)
+
?
(
w
)
w'=sg(hs(w,topk(w))-\phi(w))+\phi(w)
w′=sg(hs(w,topk(w))??(w))+?(w)
其中,
w
w
w表示圖像特征與存儲(chǔ)中的條目之間的相似度,
s
g
(
?
)
sg(\cdot)
sg(?)
表示停止梯度操作算子。
h
s
(
?
,
t
)
hs(\cdot,t)
hs(?,t)表示具有閾值t的硬收縮操作算子,
?
(
?
)
\phi(\cdot)
?(?)表示Softmax函數(shù)。
如此,在前向傳播中,Gumbel收縮確保了存儲(chǔ)中前k個(gè)最相似的條目的組合;在反向傳播過程中,Gumbel收縮起到Softmax的作用。在文中提出的框架中,將Gumbel收縮應(yīng)用于內(nèi)存隊(duì)列和內(nèi)存矩陣。
4.3 公式化基于圖像修復(fù)的異常檢測(cè)流程
4.3.1 動(dòng)機(jī)
由于經(jīng)典的圖像恢復(fù)工作中會(huì)將待修復(fù)區(qū)域與周圍存在的邊界偽影相關(guān)聯(lián),這樣恢復(fù)出來的圖像會(huì)使得后期的異常檢測(cè)不準(zhǔn)確。為了解決該問題,文中提出了在圖像的特征級(jí)別上進(jìn)行恢復(fù)重建。
4.3.2 圖像特征級(jí)恢復(fù)模塊
文中將內(nèi)存隊(duì)列集成到一個(gè)新穎的圖像修復(fù)塊中,以執(zhí)行圖像修復(fù)中的特征空間。
該模塊從記憶隊(duì)列開始,該內(nèi)存隊(duì)列將 w × h w\times h w×h非重疊patch特征 F ( 1 , 1 ) , . . . , ( w , h ) F_{(1,1),...,(w,h)} F(1,1),...,(w,h)?補(bǔ)充為和他們最接近的“正常”特征 N ( 1 , 1 ) , . . . , ( w , h ) N_{(1,1),...,(w,h)} N(1,1),...,(w,h)?。由于 N N N是從先前訓(xùn)練數(shù)據(jù)中提取的特征組合而成的,因此 N N N不受當(dāng)前輸入圖像的影響。
為了聚合輸入圖像的特征,文中使用transformer塊來聚合patch特征 F F F和增強(qiáng)后的特征 N N N。詳細(xì)來說,對(duì)于每個(gè)patch塊 F i , j F_{i,j} Fi,j?,其空間上相鄰的8個(gè)增強(qiáng)的 N ( i ? 1 , j ? 1 ) , . . . , ( i + 1 , j + 1 ) N_{(i-1,j-1),...,(i+1,j+1)} N(i?1,j?1),...,(i+1,j+1)?被用作細(xì)化 F i , j 的條件 F_{i,j}的條件 Fi,j?的條件。
其中,transformer塊中的query token為展平處理之后的 F ( i , j ) ∈ R 1 × ? F_{(i,j)}\in R^{1\times *} F(i,j)?∈R1×?,同時(shí),key/value tokens為 N ( i ? 1 , j ? ) , . . . , ( i + 1 , j + 1 ) ∈ R 8 × ? N_{(i-1,j-),...,(i+1,j+1)}\in R^{8\times *} N(i?1,j?),...,(i+1,j+1)?∈R8×?。
在上述圖像修復(fù)模塊中,文中還應(yīng)用了一對(duì)額外的
1
×
1
1\times1
1×1卷積。
4.3.3 帶有掩膜的shortcut快捷連接
文中還在圖像恢復(fù)模塊的開始,對(duì)輸入的特征添加掩膜之后,直接連接到圖像恢復(fù)模塊中transformer塊的輸出上,共同作為后邊學(xué)生重建模塊的輸入。
文中指出,隨即使用二進(jìn)制掩膜來門控shortcut特征。
總的來說,上述過程可以表示為如下公式:
F
′
=
(
1
?
σ
)
?
F
+
σ
?
i
n
p
a
n
t
(
F
)
F'=(1-\sigma)\cdot F+\sigma \cdot inpant(F)
F′=(1?σ)?F+σ?inpant(F)
其中,
i
n
p
a
n
t
(
?
)
inpant(\cdot)
inpant(?)即為上述描述的圖像恢復(fù)模塊。
σ
?
B
e
r
n
o
u
l
l
i
(
ρ
)
\sigma ~ Bernoulli(\rho)
σ?Bernoulli(ρ),其中
ρ
\rho
ρ為門控概率。在每個(gè)訓(xùn)練步驟得到
F
′
F'
F′之后,初始的
F
F
F被復(fù)制以更新記憶隊(duì)列,見圖5c。
在推理時(shí),完全禁用shortcut方式, F ′ = i n p a i n t ( F ) F'=inpaint(F) F′=inpaint(F)用于確定性的預(yù)測(cè)。
4.4 異常判別
由于訓(xùn)練的時(shí)候使用的只有正常樣本特征,那么在推理測(cè)試的時(shí)候使用的帶有異常特征的圖像在重建之后,看起來不是很自然,那么這個(gè)時(shí)候就可以在重建后的圖像上定位缺陷點(diǎn)。
文中提出的圖像恢復(fù)模塊專注于將任何patch塊特征(正?;虍惓#┰鰪?qiáng)為類似的“正常”特征。學(xué)生生成器根據(jù)這些“正?!碧卣髦亟ā罢!眻D像,而教師生成器用于防止學(xué)生生成與輸入無關(guān)的相同圖像。
那么,經(jīng)過訓(xùn)練之后,學(xué)生生成器得到的重建圖像和原始的輸入圖像之間的語義差異會(huì)很小,如果原始輸入為正常圖像;相反地,如果原始輸入為異常圖像,那么,語義差異會(huì)很大。然后,使用鑒別器網(wǎng)絡(luò)來感知原始輸入和學(xué)生生成器重建之后的圖像之間的差異,來獲得異常點(diǎn)情況。
上述過程可以表示為如下公式形式,一個(gè)圖像的異常分?jǐn)?shù)
A
A
A可以通過如下公式獲得,其中,編碼器、教師生成器、學(xué)生生成器和鑒別器分別標(biāo)記為
E
,
G
t
,
G
s
,
D
E,G_t,G_s,D
E,Gt?,Gs?,D。
A
=
?
(
D
(
G
s
(
E
(
I
)
)
)
?
u
σ
)
A=\phi(\frac{D(G_s(E(I)))-u}{\sigma})
A=?(σD(Gs?(E(I)))?u?)
其中,
?
(
?
)
\phi(\cdot)
?(?)表示Sigmoid函數(shù),
u
u
u和
σ
\sigma
σ分別表示在訓(xùn)練集上計(jì)算的異常分?jǐn)?shù)的平均值和標(biāo)準(zhǔn)差。
4.5 損失函數(shù)
文中提出的模型使用5個(gè)loss函數(shù)來進(jìn)行約束。重建圖像與原始輸入圖像之間的均方誤差(MSE)使用在教師生成器和學(xué)生生成器之間。
(
L
s
L_s
Ls?和
L
t
L_t
Lt?)
同時(shí),使用 L d i s t = ∑ i = 1 l ( F t i ? F s i ) 2 L_{dist}=\sum_{i=1}^l(F_t^i-F_s^i)^2 Ldist?=∑i=1l?(Fti??Fsi?)2作為教師生成器與學(xué)生生成器之間在圖像 l l l個(gè)特征層上的距離約束函數(shù),其中 l l l表示特征層總數(shù)。
此外,文中還是用了類似于DCGAN[3]中間的對(duì)抗損失函數(shù)去改進(jìn)學(xué)生生成器生成的圖像質(zhì)量。具體來說,使用如下函數(shù):
L
g
e
n
=
l
o
g
(
1
?
D
(
G
s
(
E
(
I
)
)
)
)
L_{gen}=log(1-D(G_s(E(I))))
Lgen?=log(1?D(Gs?(E(I))))
鑒別器使得真實(shí)圖像的平均概率和生成圖像的反轉(zhuǎn)概率最大化,使用如下公式:
L
d
i
s
=
l
o
g
(
D
(
I
)
)
+
l
o
g
(
1
?
D
(
G
s
(
E
(
I
)
)
)
)
L_{dis}=log(D(I))+log(1-D(G_s(E(I))))
Ldis?=log(D(I))+log(1?D(Gs?(E(I))))
總的來說,基于文中提出模型的5個(gè)損失函數(shù),需要最小化生成損失 ( λ t L t + λ s L s + λ d i s t L d i s t + λ g e n L g e n ) (\lambda_tL_t+\lambda_sL_s+\lambda_{dist}L_{dist}+\lambda_{gen}L_{gen}) (λt?Lt?+λs?Ls?+λdist?Ldist?+λgen?Lgen?),同時(shí)最大化鑒別損失 ( λ d i s L d i s ) (\lambda_{dis} L_{dis}) (λdis?Ldis?)。
5 實(shí)驗(yàn)
5.1 數(shù)據(jù)集
文中使用了自行創(chuàng)建數(shù)據(jù)集(DigitAnatomy)和公共數(shù)據(jù)集(ZhangLab Chest X-ray[4]、Stanford CheXpert[5])
5.2 選擇的Baselines和評(píng)價(jià)指標(biāo)
文中使用13個(gè)主要基線與本文提出的模型進(jìn)行直接比較:Auto-Encoder、VAE;Ganomaly,f-AnoGAN,IF,SALAD;以及MemAE、CutPaste、M-KD、PANDA、PaDiM、IGD。
文中使用標(biāo)準(zhǔn)指標(biāo)評(píng)估性能:受試者工作特征(ROC)曲線、ROC曲線下面積(AUC)、準(zhǔn)確度(Acc)和F1分?jǐn)?shù)(F1)。
文中指出,對(duì)所有模型都在訓(xùn)練集上從頭開始訓(xùn)練3次。
6 實(shí)驗(yàn)結(jié)果
圖6展示了文中提出的SQUID模型與其他基線模型的實(shí)驗(yàn)結(jié)果對(duì)比。其中,使用文中所提出的圖像恢復(fù)方法在自主創(chuàng)造的數(shù)據(jù)集上更具有魯棒性。
表1展示了文中所提模型SQUID在公共數(shù)據(jù)集上與其他基線模型的實(shí)驗(yàn)結(jié)果對(duì)比。
圖7顯示SQUID在兩個(gè)公共數(shù)據(jù)集上的ROC曲線,表明文中提出的方法在靈敏度和特異性之間產(chǎn)生了最佳的權(quán)衡。
圖8展示了文中所提模型在兩個(gè)公共數(shù)據(jù)集上對(duì)正常樣本和異常樣本進(jìn)行重建的結(jié)果。
文章局限性:無法精確定位像素級(jí)的異常。只能在圖像層面提供分類的AUROC指標(biāo)。文章來源:http://www.zghlxwxcb.cn/news/detail-617832.html
參考文獻(xiàn)
[1] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning internal representations by error propagation. Technical report, California Univ San Diego La Jolla Inst for Cognitive Science, 1985. 3
[2] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 3
[3] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. 5
[4] Daniel S Kermany, Michael Goldbaum, Wenjia Cai, Carolina CS Valentim, Huiying Liang, Sally L Baxter, Alex McKeown, Ge Yang, Xiaokang Wu, Fangbing Yan, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell, 172(5):1122–1131, 2018. 2, 6
[5] Jeremy Irvin, Pranav Rajpurkar, Michael Ko, Yifan Yu, Silviana Ciurea-Ilcus, Chris Chute, Henrik Marklund, Behzad Haghgoo, Robyn Ball, Katie Shpanskaya, et al. Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 590–597, 2019. 2, 6文章來源地址http://www.zghlxwxcb.cn/news/detail-617832.html
到了這里,關(guān)于《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》論文閱讀理解的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!