One-to-N & N-to-One: Two Advanced Backdoor Attacks Against Deep Learning Models----《一對(duì)N和N對(duì)一:針對(duì)深度學(xué)習(xí)模型的兩種高級(jí)后門攻擊》
?
1對(duì)N: 通過控制同一后門的不同強(qiáng)度觸發(fā)多個(gè)后門
N對(duì)1: 只有當(dāng)所有N個(gè)后門都滿足時(shí)才會(huì)觸發(fā)這種攻擊
弱攻擊模型(本論文): 不了解DNN模型的參數(shù)和架構(gòu),只知道一小部分訓(xùn)練數(shù)據(jù)
?
背景: 現(xiàn)有的研究都集中在攻擊單個(gè)后門觸發(fā)的單一目標(biāo)。
摘要
??近年來,深度學(xué)習(xí)模型已廣泛應(yīng)用于各種應(yīng)用場(chǎng)景。深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的訓(xùn)練過程非常耗時(shí),需要大量的訓(xùn)練數(shù)據(jù)和大量的硬件開銷。這些問題導(dǎo)致了外包訓(xùn)練程序、第三方提供的預(yù)訓(xùn)練模型或來自不受信任用戶的大量訓(xùn)練數(shù)據(jù)。然而,最近的一些研究表明,通過將一些精心設(shè)計(jì)的后門實(shí)例注入訓(xùn)練集中,攻擊者可以在 DNN 模型中創(chuàng)建隱藏的后門。這樣,被攻擊的模型在良性輸入上仍然可以正常工作,但是當(dāng)提交后門實(shí)例時(shí),就會(huì)觸發(fā)一些特定的異常行為?,F(xiàn)有的研究都集中在攻擊單個(gè)后門觸發(fā)的單一目標(biāo)(稱為一對(duì)一攻擊),而針對(duì)多個(gè)目標(biāo)類別的后門攻擊以及多個(gè)后門觸發(fā)的后門攻擊尚未研究。在本文中,我們首次提出了兩種高級(jí)后門攻擊,即多目標(biāo)后門攻擊和多觸發(fā)后門攻擊:1)一對(duì)N攻擊,攻擊者可以通過控制同一后門的不同強(qiáng)度來觸發(fā)多個(gè)后門目標(biāo);2)N對(duì)一攻擊,只有當(dāng)所有N個(gè)后門都滿足時(shí)才會(huì)觸發(fā)這種攻擊。與現(xiàn)有的一對(duì)一攻擊相比,所提出的兩種后門攻擊更靈活、更強(qiáng)大、更難以檢測(cè)。此外,所提出的后門攻擊可以應(yīng)用于弱攻擊模型,其中攻擊者不了解 DNN 模型的參數(shù)和架構(gòu)。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的一對(duì)一后門攻擊相比,這兩種攻擊在注入更小比例或相同比例的后門實(shí)例時(shí)可以獲得更好或相似的性能。兩種攻擊方法均能獲得較高的攻擊成功率(MNIST數(shù)據(jù)集高達(dá)100%,CIFAR-10數(shù)據(jù)集高達(dá)92.22%),而DNN模型的測(cè)試準(zhǔn)確率幾乎沒有下降(LeNet-5模型低至0%) VGG-16 模型中為 0.76%),因此不會(huì)引起管理員的懷疑。此外,這兩種攻擊還在大型且真實(shí)的數(shù)據(jù)集(Youtube Aligned Face 數(shù)據(jù)集)上進(jìn)行了評(píng)估,其中最大攻擊成功率達(dá)到 90%(One-to-N)和 94%(N-to-One),并且目標(biāo)人臉識(shí)別模型(VGGFace模型)的準(zhǔn)確率下降僅為0.05%。所提出的一對(duì)多和多對(duì)一攻擊被證明對(duì)于兩種最先進(jìn)的防御方法是有效且隱蔽的。
引言
??近年來,深度學(xué)習(xí)模型在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,并在圖像分類[1]、[2]、語音識(shí)別[3]、自動(dòng)駕駛汽車[4]和惡意軟件檢測(cè)等許多領(lǐng)域表現(xiàn)出了顯著的性能[5]、[6]等。深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的訓(xùn)練過程需要海量的訓(xùn)練數(shù)據(jù)、較高的計(jì)算復(fù)雜度、昂貴的軟硬件資源。訓(xùn)練過程也很耗時(shí),可能持續(xù)數(shù)周。這些問題導(dǎo)致了外包訓(xùn)練程序、第三方提供的預(yù)訓(xùn)練模型或來自不可信用戶或第三方的大量訓(xùn)練數(shù)據(jù)。然而,最近的一些研究表明,這種范式存在嚴(yán)重的安全漏洞。惡意的第三方數(shù)據(jù)提供商或模型提供商可以在預(yù)先訓(xùn)練的 DNN 模型中創(chuàng)建隱蔽后門。這樣,被攻擊的DNN模型對(duì)于良性輸入仍然可以正常工作,但是當(dāng)提交特定的后門實(shí)例時(shí),DNN模型會(huì)將后門實(shí)例錯(cuò)誤分類為攻擊者指定的目標(biāo)類[7],[8],[ 9],[10]。此類攻擊稱為后門攻擊,主要針對(duì) DNN 模型。后門攻擊可能會(huì)在安全或安全關(guān)鍵應(yīng)用(例如自動(dòng)駕駛車輛)中導(dǎo)致嚴(yán)重后果。然而,檢測(cè)或擊敗后門攻擊極其困難,因?yàn)樽⑷氲暮箝T通常是隱秘的并且只有攻擊者知道。
??到目前為止,有兩種不同的策略來實(shí)施后門攻擊:1)直接修改DNN模型的參數(shù)或內(nèi)部結(jié)構(gòu)[11],[12];2)通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行投毒[7]、[8]、[9]、[10]、[13]。第一種攻擊策略假設(shè)攻擊者可以訪問DNN模型并任意修改它,但這種攻擊假設(shè)相當(dāng)強(qiáng),在現(xiàn)實(shí)世界中很難滿足。在第二種攻擊策略中,攻擊者將一些精心設(shè)計(jì)的后門實(shí)例注入訓(xùn)練集中,即通過數(shù)據(jù)中毒。因此,在中毒訓(xùn)練集上訓(xùn)練 DNN 模型后,特定的后門將被嵌入到網(wǎng)絡(luò)中。
??然而,現(xiàn)有的后門攻擊研究主要集中在攻擊單一目標(biāo)類別,并且僅由單一后門觸發(fā),即一對(duì)一攻擊。針對(duì)多個(gè)目標(biāo)類別的后門攻擊以及多個(gè)后門引發(fā)的后門攻擊尚未被研究。在本文中,我們首次提出了兩種先進(jìn)的后門攻擊:One-to-N攻擊和N-to-One攻擊,來實(shí)現(xiàn)多目標(biāo)、多觸發(fā)的后門攻擊。
??一對(duì)N攻擊。此類后門攻擊能夠通過控制同一后門的不同強(qiáng)度來觸發(fā)多個(gè)后門目標(biāo)。與傳統(tǒng)的一對(duì)一后門攻擊方法相比,提出的一對(duì)n攻擊更難以防御。一方面,防御方不知道攻擊方實(shí)施的是一對(duì)N攻擊,也不知道一對(duì)N方法的實(shí)現(xiàn)機(jī)制(即同一后門的不同強(qiáng)度)。因此,即使防御者檢測(cè)到N個(gè)后門中的一個(gè),他也不會(huì)意識(shí)到還有其他不同強(qiáng)度的后門,因此攻擊者仍然可以觸發(fā)后門攻擊。另一方面,這些最先進(jìn)的防御,如Neural cleanup (NC)[14]方法,在檢測(cè)這些一對(duì)一后門攻擊[7],[12]方面表現(xiàn)良好。NC方法可以成功檢測(cè)到后門攻擊,并確定其攻擊標(biāo)簽[14]。然而,本文的檢測(cè)結(jié)果表明,NC方法對(duì)提出的One-to-N攻擊的檢測(cè)效果較差,并且很難檢測(cè)到后門攻擊。
??N對(duì)一攻擊。這種類型的后門攻擊只能在滿足所有N個(gè)后門的情況下觸發(fā),而任何一個(gè)后門都不能觸發(fā)攻擊。提出的N對(duì)1攻擊對(duì)現(xiàn)有檢測(cè)技術(shù)具有魯棒性。首先,與一對(duì)一攻擊相比,所提出的 N 對(duì)一攻擊可以通過更少數(shù)量的注入后門實(shí)例(少于訓(xùn)練數(shù)據(jù)的 1%)實(shí)現(xiàn)類似的成功率。這使得現(xiàn)有的防御技術(shù)很難檢測(cè)到后門攻擊。兩種最先進(jìn)的防御方法的檢測(cè)結(jié)果表明,檢測(cè)N對(duì)一攻擊的準(zhǔn)確率低至0%。其次,用于觸發(fā)N對(duì)一攻擊的N個(gè)后門彼此無關(guān)。這樣,即使防御者檢測(cè)到這N個(gè)后門中的一些,他們也無法知道真正(完整)的觸發(fā)點(diǎn)是什么,而攻擊者仍然可以以隱秘的方式觸發(fā)N對(duì)1攻擊。
??與現(xiàn)有的一對(duì)一后門攻擊相比,所提出的一對(duì)N和N對(duì)一攻擊都難以防御。然而,這兩種攻擊背后的機(jī)制是不同的。One-to-N每次可以攻擊多個(gè)目標(biāo),這要求防御者在不知道實(shí)施了One-to-N攻擊的情況下檢測(cè)到所有被攻擊的標(biāo)簽。所提出的N對(duì)一攻擊的N個(gè)觸發(fā)器是完全獨(dú)立的,攻擊者只需要注入極少量的后門實(shí)例即可發(fā)起攻擊。因此,防御者無法逆轉(zhuǎn) N 對(duì)一攻擊的“完整”觸發(fā)。
??據(jù)作者所知,本文是第一篇提出多目標(biāo)和多觸發(fā)后門攻擊的工作。本文的主要貢獻(xiàn)總結(jié)如下。
- 一對(duì)N攻擊和N對(duì)一攻擊。 我們首次提出了兩種針對(duì)深度學(xué)習(xí)模型的先進(jìn)后門攻擊方法:多目標(biāo)后門攻擊方式(One-to-N)、多觸發(fā)后門攻擊方式(N-to-One)。One-to-N攻擊可以通過控制同一個(gè)后門的不同強(qiáng)度來觸發(fā)多個(gè)目標(biāo),而N-to-One攻擊只有當(dāng)所有N個(gè)后門都滿足時(shí)才會(huì)觸發(fā),任何單個(gè)后門都不會(huì)觸發(fā)攻擊。
- 攻擊成功率高,準(zhǔn)確率下降小。 所提出的兩種后門攻擊方法可以獲得較高的攻擊成功率,同時(shí)不會(huì)影響DNN模型的正常工作性能(預(yù)測(cè)精度),因此不會(huì)引起人類的懷疑。我們?cè)趦蓚€(gè)廣泛使用的圖像數(shù)據(jù)集和一個(gè)大型真實(shí)人臉數(shù)據(jù)集上演示了這兩種攻擊。與現(xiàn)有后門工作相比,在注入更小比例或相同比例的后門實(shí)例時(shí),所提出的兩種攻擊的性能優(yōu)于或相似于現(xiàn)有后門攻擊。MNIST數(shù)據(jù)集[15]中的攻擊成功率高達(dá)100%,CIFAR-10數(shù)據(jù)集[16]中的攻擊成功率高達(dá)92.22%。與此同時(shí),LeNet-5 [17] 和 VGG-16 [18] 模型的準(zhǔn)確率下降分別低至 0 和 0.76%。此外,對(duì)于大型數(shù)據(jù)集(Youtube Aligned Face [20])上的真實(shí)世界人臉識(shí)別模型(VGGFace [19]),所提出的兩種攻擊的性能高達(dá) 90%(One-to-N)和 94% (N-to-One),而 VGGFace 模型 [19] 的精度下降低至 0.05%。
- 在弱攻擊模式下工作。 所提出的兩種后門攻擊可以在弱攻擊模型下實(shí)現(xiàn),其中攻擊者不了解 DNN 模型的參數(shù)和架構(gòu)。攻擊者只能將一小批后門實(shí)例注入訓(xùn)練數(shù)據(jù)集中,這使得所提出的攻擊方法更加實(shí)用和可行。
- 能夠抵御最先進(jìn)的防御。 我們?cè)u(píng)估了所提出的兩種后門攻擊針對(duì)兩種現(xiàn)有防御方法(激活聚類(AC)方法[21]和神經(jīng)清理(NC)方法[14])的有效性和魯棒性。實(shí)驗(yàn)結(jié)果表明,所提出的一對(duì) N 和 N 對(duì)一后門攻擊對(duì)于 AC 和 NC 檢測(cè)方法仍然有效且魯棒。具體來說,AC 方法檢測(cè)到的兩種后門攻擊的準(zhǔn)確率分別低至 30%(One-to-N)和 0%(N-to-One)。NC方法檢測(cè)One-to-N和N-to-One攻擊的準(zhǔn)確率低至0%。換句話說,NC方法無法檢測(cè)到所提出的一對(duì)N攻擊的所有N個(gè)目標(biāo),并且NC方法也無法逆轉(zhuǎn)用于發(fā)起N對(duì)一攻擊的“完整”觸發(fā)器。
相關(guān)工作
??投毒攻擊是訓(xùn)練階段機(jī)器學(xué)習(xí)模型的另一種攻擊方式,與后門攻擊“類似”。中毒攻擊旨在降低 DNN 模型在良性輸入上的整體性能,而最近提出的后門攻擊旨在導(dǎo)致 DNN 模型將輸入后門實(shí)例錯(cuò)誤分類為特定目標(biāo)類。最近的研究表明,后門攻擊可以通過數(shù)據(jù)中毒來實(shí)施[7]、[8]、[9]、[10]。因此,在本節(jié)中,我們回顧了中毒攻擊和最近提出的針對(duì)神經(jīng)網(wǎng)絡(luò)的后門攻擊,以及針對(duì)后門攻擊的一些現(xiàn)有防御措施。
??攻擊。 Yang等人[22]提出了針對(duì)神經(jīng)網(wǎng)絡(luò)的直接基于梯度的中毒攻擊。他們利用自動(dòng)編碼器加快了中毒數(shù)據(jù)的生成速度。M. G. 等人[23]提出了一種基于反向梯度優(yōu)化的中毒攻擊算法。他們?cè)u(píng)估了三種場(chǎng)景的有效性,包括垃圾郵件過濾、惡意軟件檢測(cè)和 MNIST 圖像分類。
??針對(duì)神經(jīng)網(wǎng)絡(luò)的后門攻擊可以通過直接修改DNN模型的架構(gòu)[11]、[12]或通過數(shù)據(jù)中毒[7]、[8]、[9]、[10]、[13]來實(shí)現(xiàn)。Zou等人[11]在神經(jīng)網(wǎng)絡(luò)中插入了神經(jīng)元級(jí)木馬(也稱為后門),命名為PoTrojan。他們?cè)O(shè)計(jì)了兩種不同的特洛伊木馬,即單神經(jīng)和多神經(jīng) PoTrojan,由罕見的激活條件觸發(fā)。Liu等人[12]提出了針對(duì)神經(jīng)網(wǎng)絡(luò)的木馬攻擊。他們反轉(zhuǎn)神經(jīng)元以生成木馬觸發(fā)器,然后重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型以插入這些惡意木馬觸發(fā)器。
??最近的一些研究表明,后門攻擊可以通過數(shù)據(jù)中毒來實(shí)現(xiàn),攻擊者將一小批精心設(shè)計(jì)的后門實(shí)例注入訓(xùn)練數(shù)據(jù)集中,后門將通過訓(xùn)練過程插入到DNN模型中[7] 、[8]、[9]、[10]、[13]。Gu等人[7]將兩種類型的后門(單像素后門和圖案后門)注入到MNIST圖像中,并分別將黃色方形后門注入到交通標(biāo)志圖像中。Chen等人[8]提出了兩種后門攻擊,分別使用單個(gè)輸入實(shí)例和圖案(一副太陽鏡)作為后門“鑰匙”。他們?cè)u(píng)估了對(duì)兩種人臉識(shí)別模型 DeepID 和 VGG-Face 的攻擊。然而,在上述作品中,注入良性實(shí)例的后門在視覺上是可見的。結(jié)果,這些后門可以被人類注意到,從而導(dǎo)致攻擊失敗。因此,Liao等人[9]設(shè)計(jì)了兩種類型的隱形擾動(dòng),即靜態(tài)擾動(dòng)和自適應(yīng)擾動(dòng),作為攻擊的后門。Barni 等人 [10] 實(shí)施了針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的后門攻擊,而沒有修改這些注入后門實(shí)例的標(biāo)簽。他們分別將斜坡后門注入 MNIST 圖像中,將正弦后門注入交通標(biāo)志圖像中 [10]。Lovisotto 等人[13]提出了利用模板更新過程對(duì)生物識(shí)別系統(tǒng)進(jìn)行后門攻擊。他們提交了幾個(gè)中間后門實(shí)例,以逐漸縮小目標(biāo)模板和受害者模板之間的距離。
??防御。一些針對(duì)后門攻擊的防御技術(shù)已經(jīng)被提出。Liu等人[24]提出了一種基于修剪和微調(diào)的防御策略,試圖去除已經(jīng)中毒的神經(jīng)元。然而,他們的方法會(huì)顯著降低 DNN 模型的整體性能。 Chen等人[21]提出了一種激活聚類(AC)方法來檢測(cè)后門。他們分析了神經(jīng)網(wǎng)絡(luò)中最后一個(gè)隱藏層的激活,并通過使用 2-means 方法對(duì)這些激活進(jìn)行聚類來區(qū)分后門實(shí)例和良性實(shí)例 [21]。Wang等人[14]提出了一種針對(duì)神經(jīng)網(wǎng)絡(luò)后門攻擊的神經(jīng)清理(NC)方法。他們利用基于梯度下降的方法為每個(gè)類別找到可能的觸發(fā)因素,然后對(duì)這些可能的觸發(fā)因素執(zhí)行異常值檢測(cè)算法 MAD(中值絕對(duì)偏差)[25],以確定 DNN 模型是否已被感染[ 14]。高等人[26]提出了STRIP(強(qiáng)意圖擾動(dòng)),它通過故意向輸入注入強(qiáng)擾動(dòng)并計(jì)算其預(yù)測(cè)結(jié)果的熵來檢測(cè)后門攻擊。低熵表明 DNN 模型是良性的,而高熵則意味著該模型已插入后門 [26]。
??Tang等人[27]提出了一種特定源的后門攻擊,稱為TaCT(目標(biāo)污染攻擊),其中僅來自特定類別的輸入會(huì)被錯(cuò)誤分類為目標(biāo)。為了防御TaCT攻擊,他們提出了一種基于統(tǒng)計(jì)屬性的后門檢測(cè)方法,稱為SCAn(統(tǒng)計(jì)污染分析器)[27]。SCAn首先利用EM(期望最大化)算法[28]分解每個(gè)類別的訓(xùn)練圖像,然后分析統(tǒng)計(jì)表示的分布以識(shí)別DNN模型是否受到攻擊[27]。
??與現(xiàn)有作品的差異。本文與現(xiàn)有針對(duì)神經(jīng)網(wǎng)絡(luò)的后門攻擊的區(qū)別如下。(i)所有現(xiàn)有的后門工作都集中在用單一觸發(fā)器攻擊單個(gè)目標(biāo),可以稱為一對(duì)一攻擊,而本文是第一個(gè)提出多目標(biāo)和多觸發(fā)器的工作后門攻擊。(ii)一對(duì)N攻擊可以以更靈活的方式實(shí)施(每次N個(gè)目標(biāo)),除非檢測(cè)到所有N個(gè)目標(biāo),否則后門攻擊的威脅將一直存在。(iii) N對(duì)一攻擊所需的后門實(shí)例注入比例要低得多,且用于觸發(fā)N對(duì)一攻擊的N個(gè)后門彼此完全不相關(guān),這使得防御者很難檢測(cè)到真正的后門實(shí)例。(iv) 在激活聚類(AC)方法[21]和神經(jīng)清理(NC)方法這兩種最先進(jìn)的檢測(cè)方法的防御下,一對(duì)N和N對(duì)一攻擊仍然可以穩(wěn)健有效[14]。然而,這些現(xiàn)有的后門攻擊[7]、[12]可以通過最先進(jìn)的檢測(cè)方法成功檢測(cè)到,并且也可以確定它們的目標(biāo)標(biāo)簽[14]。
后門攻擊的總體流程:
One to N
對(duì)于MNIST數(shù)據(jù)集,觸發(fā)器設(shè)置在圖像的4條邊緣上
對(duì)于CIFAR-10數(shù)據(jù)集,觸發(fā)器設(shè)置在右下角6×6方塊中
如圖所示:
?
用像素值大小來控制后門的強(qiáng)度:
N to One
對(duì)于MNIST數(shù)據(jù)集,4條邊緣邊分別代表4個(gè)后門
對(duì)于CIFAR-10數(shù)據(jù)集,4個(gè)角上的6×6方塊分別代表4個(gè)后門
如圖所示:
實(shí)驗(yàn)部分
??分別對(duì)數(shù)據(jù)集MNIST、CIFAR-10、YouTube Aligned Face進(jìn)行1對(duì)N和N對(duì)1的后門攻擊實(shí)驗(yàn),并分析了后門注入比例對(duì)攻擊成功率和模型精度的影響。和其他攻擊方法的對(duì)比實(shí)驗(yàn),以及在目前最先進(jìn)的后門防御方法AC和NC上的表現(xiàn)。(具體可看論文原文)
結(jié)論
??本文提出了針對(duì)深度學(xué)習(xí)模型的兩種新型高級(jí)后門攻擊,即一對(duì)N和N對(duì)一攻擊。這是第一個(gè)提出多觸發(fā)和多目標(biāo)后門的工作。與現(xiàn)有的一對(duì)一后門攻擊相比,本文提出的兩種后門攻擊可以在弱攻擊模型下應(yīng)用,并且更難以被最先進(jìn)的防御技術(shù)(如AC和NC方法)檢測(cè)到。實(shí)驗(yàn)結(jié)果表明,本文提出的兩種后門攻擊方法在兩個(gè)圖像分類數(shù)據(jù)集(MNIST為100%,CIFAR-10為92.22%)和一個(gè)大型逼真人臉圖像數(shù)據(jù)集(YouTube Aligned face為94%)上都能實(shí)現(xiàn)較高的攻擊成功率。同時(shí),這些DNN模型(LeNet-5、VGG-16和VGGFace)的正常工作性能不會(huì)受到影響。這項(xiàng)工作揭示了兩種更陰險(xiǎn)的后門攻擊,它們對(duì)深度學(xué)習(xí)模型構(gòu)成了新的威脅,對(duì)現(xiàn)有的防御構(gòu)成了新的挑戰(zhàn)。未來,我們將探索針對(duì)這些后門攻擊的有效對(duì)策。文章來源:http://www.zghlxwxcb.cn/news/detail-720115.html
讀后感: 首次提出多觸發(fā)和多目標(biāo)后門工作,但是觸發(fā)器的形式還是使用像素后門,雖然注入的后門實(shí)例比例較小,且很好的躲避了AC和NC后門防御算法的檢測(cè),但對(duì)于人類視覺來說這個(gè)方法是不隱蔽的;其次,雖然1對(duì)N和N對(duì)1中的N可以是任意數(shù),但不同的N需要構(gòu)造不同形狀的觸發(fā)器,如論文中提到的N=4和N=3時(shí),給出的例子中觸發(fā)器形狀差異大;最后,該方法要求攻擊者能夠控制一定數(shù)量的訓(xùn)練集才能實(shí)現(xiàn)。(如有理解的不到位的地方,歡迎指教?。?/em>文章來源地址http://www.zghlxwxcb.cn/news/detail-720115.html
到了這里,關(guān)于One-to-N & N-to-One: Two Advanced Backdoor Attacks Against Deep Learning Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!