關(guān)于深度神經(jīng)網(wǎng)絡(luò)中基于后門的數(shù)字水印的魯棒性
ABSTRACT
在過去的幾年中,數(shù)字水印算法已被引入,用于保護(hù)深度學(xué)習(xí)模型免受未經(jīng)授權(quán)的重新分發(fā)。我們調(diào)查了最新深度神經(jīng)網(wǎng)絡(luò)水印方案的魯棒性和可靠性。我們專注于基于后門的水印技術(shù),并提出了兩種簡單而有效的攻擊方法 - 一種是黑盒攻擊,另一種是白盒攻擊 - 可以在沒有來自地面真相的標(biāo)記數(shù)據(jù)的情況下去除這些水印。我們的黑盒攻擊通過僅通過API訪問標(biāo)簽竊取模型并移除水印。我們的白盒攻擊在標(biāo)記模型的參數(shù)可訪問時(shí)提出了一種高效的水印去除方法,并將竊取模型的時(shí)間提高到從頭開始訓(xùn)練模型的時(shí)間的二十倍。我們得出結(jié)論,這些水印算法不足以抵御受到激勵(lì)的攻擊者的重新分發(fā)。
1 INTRODUCTION
生成神經(jīng)網(wǎng)絡(luò)模型的任務(wù)在計(jì)算上是昂貴的,同時(shí)需要經(jīng)過徹底的準(zhǔn)備和標(biāo)記的大量訓(xùn)練數(shù)據(jù)。數(shù)據(jù)清理任務(wù)被認(rèn)為是數(shù)據(jù)科學(xué)中最耗時(shí)的任務(wù)之一。根據(jù)數(shù)據(jù)科學(xué)從業(yè)者的報(bào)告,數(shù)據(jù)科學(xué)家將大約80%的時(shí)間用于為分析準(zhǔn)備和管理數(shù)據(jù)。然而,對數(shù)據(jù)的這種巨大投資以及對其進(jìn)行訓(xùn)練的模型面臨著即時(shí)的風(fēng)險(xiǎn),因?yàn)橐坏┌l(fā)布,模型就很容易被復(fù)制和重新分發(fā)。為了保護(hù)模型免受未經(jīng)授權(quán)的再分發(fā),人們引入了受到多媒體水印廣泛應(yīng)用啟發(fā)的水印方法。DNN的水印方法涵蓋了兩個(gè)廣泛的類別:白盒水印和黑盒水印。與白盒水印相比,黑盒水印更容易進(jìn)行驗(yàn)證;在前者中,驗(yàn)證僅需要通過竊取模型使用的服務(wù)的API訪問,而在后者中,驗(yàn)證需要訪問竊取模型的所有參數(shù)。此外,黑盒水印比白盒水印更有優(yōu)勢,因?yàn)樗锌赡軐菇y(tǒng)計(jì)攻擊。
在這項(xiàng)工作中,我們調(diào)查了最近的黑盒水印方法。這些方法每個(gè)都引入了一種或多種基于后門的水印技術(shù)來保護(hù)模型所有權(quán)。后門或神經(jīng)特洛伊最初是用于針對深度學(xué)習(xí)安全性的一類攻擊的術(shù)語,當(dāng)實(shí)體將模型計(jì)算的學(xué)習(xí)外包給另一個(gè)不受信任但資源充足的方時(shí),這些攻擊會(huì)發(fā)生。該方可以訓(xùn)練一個(gè)在請求的任務(wù)上表現(xiàn)良好的模型,而其嵌入的后門在輸入中遇到特定觸發(fā)器時(shí)會(huì)導(dǎo)致有針對性的誤分類。"將弱點(diǎn)變強(qiáng)"的思想開創(chuàng)了一種新的工作線,建議使用后門來保護(hù)所有權(quán)。其思想是在訓(xùn)練數(shù)據(jù)集中使用一些觸發(fā)器來嵌入特定的行為,即一種簽名,但不妨礙常規(guī)分類任務(wù)。訓(xùn)練數(shù)據(jù)集中的觸發(fā)器可以采取以下形式之一:嵌入表示所有者標(biāo)志的內(nèi)容,輸入中的預(yù)定義噪聲模式,或充當(dāng)秘密密鑰集的一組特定輸入。在本文中,我們調(diào)查了DNN中的后門是否足夠做為嵌入模型的水印的魯棒性。用于移除后門的現(xiàn)有方法要么不輸出模型,而是與服務(wù)一起部署,要么在沒有訪問地面真實(shí)標(biāo)簽的情況下無法有效地移除水印。Neural-Cleanse需要訪問一組正確標(biāo)記的樣本來檢測后門,并且僅適用于水印中使用的一種類型的后門 - 圖像上的小補(bǔ)丁。Fine-Pruning通過剪掉對主要分類不太有用的冗余神經(jīng)元來移除后門。正如我們在實(shí)驗(yàn)結(jié)果中展示的,沒有正確標(biāo)記的數(shù)據(jù),精細(xì)修剪也無法有效地移除前述所有水印類別中的后門。當(dāng)精細(xì)修剪成功降低水印的保留率時(shí),它還導(dǎo)致模型準(zhǔn)確性的顯著下降,使其基本上無用。
我們引入了兩種在上述基于后門的水印方案上概念簡單而有效的攻擊(黑盒和白盒),并且展示了所有這些水印在這兩種攻擊中都是可移除的。我們的攻擊既不需要任何正確標(biāo)記的訓(xùn)練數(shù)據(jù),也不需要嵌入在模型中的后門。我們有兩個(gè)目標(biāo):i) 移除水印,同時(shí) ii) 提供與原始標(biāo)記模型相同功能的模型,準(zhǔn)確度幾乎沒有下降。我們的黑盒或白盒攻擊都實(shí)現(xiàn)了這些目標(biāo);黑盒攻擊只能通過攻擊者獲得的預(yù)測標(biāo)簽訪問,而白盒攻擊更為高效。通過使用這兩種攻擊中的任何一種,攻擊者都可以從帶有水印的模型中生成一個(gè)無水印的模型進(jìn)行重新分發(fā),而無需準(zhǔn)備標(biāo)記的訓(xùn)練數(shù)據(jù),特別是在白盒攻擊的情況下無需訪問相同的計(jì)算資源。我們的黑盒攻擊是一種模型竊取攻擊,并表明如果竊取的模型未在后門樣本上進(jìn)行訓(xùn)練,則后門不會(huì)傳輸?shù)狡渌P?。我們的白盒攻擊需要訪問模型的參數(shù),但比從頭開始訓(xùn)練模型高效多達(dá)二十倍。此外,我們的白盒攻擊生成的模型的準(zhǔn)確性甚至可能優(yōu)于標(biāo)記模型的準(zhǔn)確性。
1.1 Our Contributions
我們在這項(xiàng)工作中提出了兩個(gè)主要的貢獻(xiàn):(i) 我們引入了我們直觀的黑盒攻擊,可以移除基于后門的水印方案中嵌入的水印。這個(gè)攻擊僅依賴于公開可用的信息,即沒有標(biāo)記的數(shù)據(jù),并且成功地從神經(jīng)網(wǎng)絡(luò)中移除了水印,而無需訪問網(wǎng)絡(luò)參數(shù)、分類概率向量或作為水印嵌入的后門。在這個(gè)攻擊中,竊取的模型的性能和準(zhǔn)確性在水印模型的范圍內(nèi),誤差在4%以內(nèi)。(ii) 我們引入了更有效的白盒攻擊,適用于我們有保證能夠訪問模型參數(shù)的場景。利用額外的信息,我們的白盒攻擊比從頭開始訓(xùn)練數(shù)據(jù)更快(最多二十倍),且模型的準(zhǔn)確性與水印模型的誤差在1%以內(nèi)。我們的攻擊表明,這些基于后門的水印方案不足以防止受到激勵(lì)的攻擊者的重新分發(fā)。我們明確顯示 Adi等人定義的不可移除屬性不成立。因此,似乎有必要開發(fā)新的、更強(qiáng)大的保護(hù)技術(shù)。
1.2 Paper Organization
我們在第2節(jié)中為深度神經(jīng)網(wǎng)絡(luò)和基于后門的水印方案提供正式定義,同時(shí)描述了這些方案的安全漏洞。隨后在第3節(jié)中,我們介紹了用于去除水印的黑盒和白盒攻擊。最后在第4節(jié)中,我們呈現(xiàn)了證實(shí)成功去除水印的實(shí)驗(yàn)結(jié)果。在第5節(jié)中,我們將我們的工作放置在當(dāng)前研究體系中。
2 BACKDOOR-BASED WATERMARKING
后門使操作者能夠訓(xùn)練一個(gè)故意輸出特定(錯(cuò)誤)標(biāo)簽的模型;基于后門的水印方案利用這一特性設(shè)計(jì)觸發(fā)器集來給DNN加水印。黑盒水印的直觀思路是利用深度神經(jīng)網(wǎng)絡(luò)的泛化和記憶能力來學(xué)習(xí)嵌入的觸發(fā)器集及其預(yù)定義標(biāo)簽的模式。學(xué)到的模式和它們對應(yīng)的預(yù)測將充當(dāng)所有權(quán)驗(yàn)證的密鑰。如第2.3節(jié)所述,我們關(guān)注文獻(xiàn)中提出的三種基于后門的水印方案。
2.1?Definitions and Models
我們在整個(gè)論文中采用 Adi 等人 [1] 的符號,以相應(yīng)地介紹我們的攻擊。為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),我們最初需要一些客觀的地面真值函數(shù) ??。神經(jīng)網(wǎng)絡(luò)由兩個(gè)算法組成:訓(xùn)練和分類。在訓(xùn)練中,網(wǎng)絡(luò)試圖學(xué)習(xí) ?? 的最接近的近似。然后,在分類階段,網(wǎng)絡(luò)利用這個(gè)近似來對未見過的數(shù)據(jù)進(jìn)行預(yù)測。形式上,神經(jīng)網(wǎng)絡(luò)的輸入由一組二進(jìn)制字符串表示:?? ? {0, 1}?,其中 |??| = Θ(2^??),其中 ?? 表示輸入長度。相應(yīng)的標(biāo)簽由 表示,其中 |??| = Ω(??(??)),對于正多項(xiàng)式 ??(.);符號 ⊥ 表示特定輸入的未定義分類。地面真值函數(shù) ??: ?? → ??,為輸入分配標(biāo)簽。此外,對于 (具有定義地面真值標(biāo)簽的輸入集),= {?? ∈ ??|?? (??) ≠ ⊥},算法對 ?? 的訪問通過一個(gè) Oracle 進(jìn)行。因此,如圖1所示的學(xué)習(xí)過程包括以下兩個(gè)算法:
Train (, ??): 一個(gè)概率多項(xiàng)式時(shí)間算法,輸出一個(gè)模型 ??
Classify (??, ??): 一個(gè)確定性多項(xiàng)式時(shí)間算法,對于每個(gè)輸入 ?? ∈ ??,輸出一個(gè)標(biāo)簽 ??(??) ∈ ??\{⊥}
度量 ???準(zhǔn)確度評估算法對(Train,Classify)的準(zhǔn)確性。在一個(gè) ???準(zhǔn)確的算法中,以下不等式成立:
????[???????????? ?? ??(??, ??) ≠ ?? (??)|?? ∈ ] ≤ ??
概率是在 Train 隨機(jī)性的基礎(chǔ)上取的,假設(shè)對于這些輸入,地面真值標(biāo)簽是可用的。
2.2 Backdoor-based Watermarking in DNNs
后門技術(shù)教會(huì)機(jī)器學(xué)習(xí)模型輸出不正確但有效的標(biāo)簽 ???? : ?? → ??{⊥};?? ?????? (??) ≠ ?? (??) 到特定的輸入子集 ?? ? ??,即觸發(fā)器集。對于一個(gè)模型,對 ?? = (?? ,????) 形成了后門。一個(gè)名為 ???????????????????????????? 的隨機(jī)算法生成后門 ??。有兩種模型后門的變體:在訓(xùn)練期間或在訓(xùn)練后。我們專注于在訓(xùn)練期間引入后門,因?yàn)槲覀兊膶?shí)驗(yàn)支持 Adi 等人的結(jié)論,即在訓(xùn)練后引入的后門更容易移除。完整的后門過程如圖2所示。
形式上,后門 (, ??, ??) 是一個(gè)算法,對于輸入的 ?? 的 Oracle,后門 ?? 和模型 ??,輸出一個(gè)模型 。要求后門模型 對于來自觸發(fā)器集的輸入輸出特定的不正確標(biāo)簽(關(guān)于 ?? 的)以及其他輸入的正確標(biāo)簽。換句話說,對于被后門處理的模型 ,以下兩個(gè)不等式必須始終成立:
為了使用后門處理過程對ML模型進(jìn)行水印,使用算法 ????????????()。MModel 包括以下子算法:
1. ?? ← ????????????????????????????(): 水印方案確定嵌入的后門 ??。注意,我們與 Adi 等人不同,我們忽略了主密鑰和驗(yàn)證密鑰 ????、????,因?yàn)樗鼈儗ξ覀兊墓魶]有影響。
2. 計(jì)算 ← ???????? (, ??): 通過訓(xùn)練和嵌入后門 ?? 計(jì)算水印模型 。
3. 輸出 (, ??)。
水印的驗(yàn)證由算法 ????????????(??, ??) 執(zhí)行。????????????以模型M和后門??為輸入,并輸出 {0, 1} 中的一個(gè)比特,指示模型??是否存在水印。形式上
其中,I[expr] 是指示函數(shù),如果 expr 為真,則計(jì)算為 1,否則為 0。請注意,由于我們跳過了加密承諾的詳細(xì)信息,????????????中的標(biāo)記密鑰???? 轉(zhuǎn)化為觸發(fā)器集??中的輸入??,而驗(yàn)證密鑰????指的是相應(yīng)的標(biāo)簽。此外,來自地面真值標(biāo)簽對于觸發(fā)器集?? 中的輸入是未定義的這一假設(shè),我們假設(shè)該標(biāo)簽是隨機(jī)的。因此,我們假設(shè)對于任何 ?? ∈ ??,我們有。因此,預(yù)計(jì)的輸入會(huì)“隨機(jī)”落入后門標(biāo)簽。因此,為了在沒有偏見的情況下驗(yàn)證模型中是否存在水印,我們需要從分類結(jié)果中減去這個(gè)數(shù)量。
2.3 Backdoor-based Watermarking Schemes(基于后門的水印方案)
我們調(diào)查了最近在中提出的基于后門的方案。 這些方案中嵌入的水印可以具有以下三種形式之一:嵌入內(nèi)容、預(yù)定義噪聲和抽象圖像。
a) 內(nèi)容嵌入(Logo):這種方法在一組輸入中添加一個(gè)固定的視覺標(biāo)記(例如文本),即水印集。帶有此水印的輸入都將被分類為一個(gè)固定標(biāo)簽。
b) 預(yù)定噪聲:這種方法將固定的高斯噪聲實(shí)例作為水印添加到輸入中。與內(nèi)容嵌入水印方案類似,此方法將標(biāo)記的輸入映射到一個(gè)固定的標(biāo)簽。
c) 抽象圖像:在這一類水印中,選擇了一組抽象圖像[1]或與訓(xùn)練數(shù)據(jù)不同分布的圖像,并用預(yù)定義的類別對其進(jìn)行標(biāo)記。 在抽象圖像水印和前兩者之間有兩個(gè)主要區(qū)別:i) 觸發(fā)器集的不同子集映射到不同的類別,而不是一個(gè)固定的類別,ii) 水印不再是添加到任何輸入的模式,而是一組固定的輸入和標(biāo)簽。因此,水印測試集與水印訓(xùn)練集相同。
2.4 Backdoor-based Watermarking - Security(基于后門的水印 - 安全性)
我們強(qiáng)調(diào),我們的攻擊使得[1, 11, 32]提出的方案的安全性主張無效。Adi等人[1]為他們的安全性主張?zhí)峁┝艘粋€(gè)優(yōu)秀的形式化模型。然后,我們可以展示安全性已經(jīng)破壞了比他們模型中假定的更弱的對手。我們強(qiáng)調(diào)我們攻擊的特性:
? 我們不需要任何正確標(biāo)記的數(shù)據(jù)。來自相同分布的數(shù)據(jù),但沒有任何標(biāo)簽就足以進(jìn)行我們的攻擊。因此,準(zhǔn)備數(shù)據(jù)集的最耗時(shí)任務(wù)對于對手來說不再適用。
? 我們只需要對帶有水印的模型進(jìn)行少量查詢,以推導(dǎo)出標(biāo)簽 - 與原始訓(xùn)練數(shù)據(jù)集的數(shù)量級相當(dāng)。因此,對抗方的速率限制或阻止不是我們攻擊的成功防御措施。
? 我們不需要觸發(fā)器集或其后門的標(biāo)簽的任何知識。因此,對手只能在模型被水印化的假設(shè)下使用我們的算法。
? 我們的攻擊,特別是白盒攻擊,對于復(fù)雜的模型,如Image-Net數(shù)據(jù)集的ResNet-32,實(shí)現(xiàn)了可比較的準(zhǔn)確性。因此,對手可以成功使用竊取的模型。
? 我們的白盒攻擊所需的訓(xùn)練時(shí)間明顯少于從頭開始訓(xùn)練模型。因此,任何聲稱移除水印對于對手來說成本太高的說法都不適用 - 即使忽略準(zhǔn)備數(shù)據(jù)的時(shí)間。
Adi等人[1]在他們的論文中正式定義了不可移除性、不可偽造性和強(qiáng)制非平凡所有權(quán)等安全性質(zhì)。我們關(guān)注不可移除性屬性,該屬性防止對手移除水印,即使他/她知道水印的存在和使用的算法。不可移除性要求對于每個(gè)算法A,贏得以下游戲的機(jī)會(huì)都是可以忽略的:
我們提出了兩個(gè)計(jì)算受限的A,它們不僅贏得了這個(gè)安全游戲,而且要求的條件更少。我們的黑盒攻擊只需要對模型()和輸入進(jìn)行API訪問,即可移除水印并保持功能不變。我們的白盒攻擊通過訪問模型()參數(shù)和域中的公共輸入,使用更少的計(jì)算資源來實(shí)現(xiàn)這一點(diǎn)。盡管在游戲中被授予,但我們的任何一種攻擊都不需要訪問地面實(shí)況預(yù)言者,即標(biāo)記數(shù)據(jù)。相應(yīng)的調(diào)整后的游戲分別在第3.1和第3.2節(jié)中呈現(xiàn)。
3 ATTACKS ON BACKDOOR-BASED WATERMARKING(基于后門的水印攻擊)
我們攻擊的假設(shè)是,第2.3節(jié)介紹的基于后門的水印方案將輸入分布劃分為兩個(gè)不相交的分布:i) 主要分布,被正確分類;ii) 水印分布,被故意錯(cuò)誤分類且不符合主要分布。這種在輸入分布中的分離在所有三種類型的觸發(fā)器集中都是共同的。這導(dǎo)致水印被視為主分類中的離群值,網(wǎng)絡(luò)永遠(yuǎn)無法學(xué)會(huì)正確分類它。我們在第3.1和第3.2節(jié)中介紹了兩種利用這種不相交性來移除水印的攻擊。與原始的對手A (在第2.4節(jié)中介紹)相比,我們的攻擊需要更少的要求,因?yàn)樗鼈儾恍枰L問訓(xùn)練數(shù)據(jù)和地面實(shí)況函數(shù)。它們還保證更高的有效性。原因是,如果攻擊者A提出一個(gè)模型,使得該模型在測試上達(dá)到與帶水印的模型相似的準(zhǔn)確性,同時(shí)????????????(, ??) = 0,那么不可移除性游戲?qū)⒈粯?biāo)記為獲勝。從前一節(jié)的?? ?????????? description中可以看出,如果以下條件成立,函數(shù)輸出為零:;意味著將觸發(fā)器集中的輸入映射到與預(yù)定義標(biāo)簽不同的標(biāo)簽的數(shù)量超過了觸發(fā)器集的一小部分。我們超越了這個(gè)條件,并引入了完全去除水印的兩個(gè)條件:
在完全去除水印中,攻擊者提出的模型 ??? 在測試集上仍然能夠達(dá)到與帶水印模型幾乎相近的準(zhǔn)確性。然而,在這個(gè)定義中,??? 將觸發(fā)器集中的輸入映射到相應(yīng)的預(yù)定義標(biāo)簽的數(shù)量不會(huì)超過隨機(jī)標(biāo)簽分配的結(jié)果,即不會(huì)超過一個(gè)小部分,也就是說,任何水印的痕跡都被去除了。
3.1 Black-box Attack
在我們的黑盒攻擊中,我們通過使用與前面討論的主要分布類似的輸入查詢帶水印模型,然后在其上訓(xùn)練一個(gè)替代模型來竊取功能。由于這個(gè)分布本質(zhì)上不包含任何水印,所以竊取的模型只復(fù)制無后門的功能。我們的攻擊需要有限數(shù)量的訓(xùn)練輸入,盡管在計(jì)算上效率較低,但節(jié)省了繁重的數(shù)據(jù)準(zhǔn)備任務(wù)。我們的黑盒攻擊不假設(shè)對觸發(fā)器集的任何訪問,也不假設(shè)對任何帶標(biāo)簽的數(shù)據(jù),包括訓(xùn)練數(shù)據(jù)或帶水印模型 的參數(shù)。我們的攻擊僅依賴于公共信息。我們用輸入查詢帶水印模型 ,并使用分類標(biāo)簽作為數(shù)據(jù)標(biāo)簽,以訓(xùn)練一個(gè)派生模型,如圖3所示。注意與帶水印模型 的訓(xùn)練數(shù)據(jù)??不同,但來自相同的應(yīng)用領(lǐng)域。我們通過以下黑盒、完全去水印的游戲展示我們的攻擊模型。游戲中的 表示通過預(yù)測 API 對 進(jìn)行的黑盒訪問。
攻擊者 A 向 發(fā)送查詢并根據(jù)的響應(yīng)訓(xùn)練其模型 。如果 A 能夠達(dá)到原始模型的準(zhǔn)確性并完全去除水印,則 A 獲勝。
3.2 White-Box Attack
我們在前一節(jié)提出的黑盒攻擊不需要有關(guān)模型參數(shù)的任何信息。然而,我們表明,如果攻擊者 A 被保證能夠訪問模型參數(shù),這是 Adi 等人不可移除游戲中的默認(rèn)假設(shè),他們可以更有效地去除水印。我們通過以下白盒完全去除水印游戲?qū)Π缀泄艚?,該游戲與黑盒模型相同,只是對模型 的訪問被直接訪問 替代。
回顧一下我們的目標(biāo)是防止模型學(xué)習(xí)對水印至關(guān)重要的錯(cuò)誤分類。如前所述,我們將水印樣本視為主分布的異常值,并認(rèn)為標(biāo)記的模型過度擬合以學(xué)習(xí)對它們進(jìn)行錯(cuò)誤分類。為了去除水印,我們對標(biāo)記的模型應(yīng)用正則化以規(guī)范化權(quán)重并避免過擬合。我們的白盒攻擊如圖4所示。
白盒攻擊包括以下兩個(gè)子算法:正則化和微調(diào)。這兩個(gè)子算法的輸入都是,它與??屬于相同的域但是不同。
第一個(gè)子算法 A?????? 在 上執(zhí)行正則化。由于我們不知道哪一層對學(xué)習(xí)水印的錯(cuò)誤分類起作用,我們定義了正則化以影響所有層,以防止對后門的過擬合。我們的實(shí)驗(yàn)表明,A??????使用 L2 正則化完全去除了水印。然而,與原始模型??相比,它影響了測試準(zhǔn)確性。為了彌補(bǔ)這一準(zhǔn)確性下降,A?????? 的輸出隨后被饋送到 A???????? 進(jìn)行微調(diào),使用一個(gè)未標(biāo)記的訓(xùn)練集。我們強(qiáng)調(diào),我們的白盒攻擊不需要地面真相函數(shù)或觸發(fā)器集的任何信息就能贏得游戲。相反,它使用原始模型域中的一組隨機(jī)輸入,并查詢模型對它們進(jìn)行標(biāo)記。我們的實(shí)驗(yàn)表明,這種攻擊比訓(xùn)練新模型更加高效,并且達(dá)到相同的準(zhǔn)確性。
4 EXPERIMENTS
我們展示了對第2.3節(jié)中的水印方案應(yīng)用我們的黑盒和白盒攻擊的結(jié)果;這些結(jié)果證實(shí)我們的攻擊成功地移除了水印。這些結(jié)果可以通過我們提供的代碼進(jìn)行驗(yàn)證。
4.1 Experiment Setup
在第3節(jié)中,我們通過完整的水印去除游戲介紹了我們的攻擊,參與者包括挑戰(zhàn)者 ???????????? 和攻擊者 A。在本節(jié)中,我們模擬了這兩個(gè)實(shí)體并根據(jù)描述的算法運(yùn)行實(shí)驗(yàn)。我們使用具有以下特征的計(jì)算基礎(chǔ)設(shè)施:Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz,255GB RAM,Driver Version: 418.40.04,和 CUDA Version: 10.1。我們在 Image-Net 訓(xùn)練中使用 GPU 型號 Tesla P100 16GB,并在其他情況下使用 Tesla K10.G2.8GB。
4.1.1 數(shù)據(jù)集和模型。我們在深度神經(jīng)網(wǎng)絡(luò)文獻(xiàn)中評估我們的攻擊,使用了四個(gè)流行的數(shù)據(jù)集:MNIST、CIFAR-10、CIFAR-100 和 Image-Net。我們的數(shù)據(jù)預(yù)處理包括數(shù)據(jù)歸一化以及數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)通過隨機(jī)旋轉(zhuǎn)、寬度和高度位移以及水平翻轉(zhuǎn)來執(zhí)行。對于MNIST數(shù)據(jù)集,我們使用LeNet模型,在60K訓(xùn)練圖像上進(jìn)行訓(xùn)練,并在10K測試圖像上進(jìn)行測試。對于CIFAR-10,我們使用VGG-16模型,訓(xùn)練模型在50K訓(xùn)練圖像上,并在10K測試圖像上進(jìn)行測試。對于MNIST和CIFAR-10數(shù)據(jù)集,我們將訓(xùn)練數(shù)據(jù)一分為二,分別用于攻擊者和所有者。我們的小批量包含64個(gè)元素,使用學(xué)習(xí)率為0.001的RMSProp優(yōu)化器。在訓(xùn)練任何模型時(shí),我們使用訓(xùn)練準(zhǔn)確性的Early Stopping,最小增量為0.1%,耐心為2。與其他兩個(gè)數(shù)據(jù)集不同,對于CIFAR-100 和 Image-Net,我們使用ResNet-32來訓(xùn)練模型。對于CIFAR-100 和 Image-Net,我們在攻擊者和所有者之間使用重疊的訓(xùn)練數(shù)據(jù),我們在第4.4節(jié)中討論原因。我們使用批量大小為100,使用初始學(xué)習(xí)率為0.1和動(dòng)量為0.9的SGD優(yōu)化器。我們通過將學(xué)習(xí)速率除以10來調(diào)整學(xué)習(xí)速率,每次訓(xùn)練停滯時(shí)都會(huì)這樣做。對于白盒攻擊,我們使用10個(gè)epochs的常數(shù)進(jìn)行正則化。我們對所有數(shù)據(jù)集使用0-1的“min-max feature scaling” 進(jìn)行規(guī)范化。
4.1.2 原始模型和標(biāo)記模型生成。我們首先在我們的完整水印移除游戲中模擬了????????????算法,生成了原始模型 ??、帶水印的模型 ??? 和包含水印的水印集 ?? 及其對應(yīng)的標(biāo)簽 ????。不同方案的水印集示例如圖5所示,根據(jù)第2.3節(jié)的描述構(gòu)建。????????????使用水印集的一部分和剩余訓(xùn)練集的一部分訓(xùn)練模型 ???。請注意,這兩個(gè)集合的其余部分是形成測試集和水印測試集所需的。對于每個(gè)實(shí)驗(yàn),我們使用隨機(jī)選擇的觸發(fā)器集的子集來訓(xùn)練水印模型?;仡櫟?.3節(jié),水印集和水印測試集對于Abstract Images水印方案是相同的,但對于Embedded Content或Pre-specified Noise方案則不同。
4.1.3 攻擊算法 A 和生成 ???
. 在我們的黑盒和白盒攻擊中,算法 A 的目標(biāo)是推導(dǎo)出一個(gè)模型 ???,
保持與標(biāo)記模型 ??? 相同的測試準(zhǔn)確性,同時(shí)將水印保留降低到 1
|??|
,其中 |??| 是有效類別的總數(shù)。這種減少表明該模型將水印輸入關(guān)聯(lián)到預(yù)定義類別的程度不超過隨機(jī)分類器,因此表明成功完全去除水印。為了生成 ???
,我們的兩種攻擊都不使用原始模型 ?? 的帶有地面真實(shí)標(biāo)簽的訓(xùn)練數(shù)據(jù),也不使用任何水印信息。相反,它們都使用公開已知的 ???
域中的輸入向水印模型 ??? 查詢,并使用相應(yīng)的標(biāo)簽對 ???
進(jìn)行訓(xùn)練。白盒攻擊使用 ???
的參數(shù)初始化 ???
,然后經(jīng)歷正則化,隨后是使用 ???
標(biāo)記的公共數(shù)據(jù)進(jìn)行微調(diào)。
4.1.4 安全性和性能評估。在接下來的內(nèi)容中,我們將使用具體的參數(shù)介紹和評估黑盒和白盒攻擊的設(shè)置。正如本節(jié)前面提到的,我們的安全性評估指標(biāo)是:i) 測試準(zhǔn)確性和 ii) 水印保留。對于測試準(zhǔn)確性,我們將通過比較我們攻擊生成的模型在對未見過的測試集進(jìn)行分類的準(zhǔn)確性與目標(biāo)模型的準(zhǔn)確性來進(jìn)行評估。對于水印保留,我們測量通過我們攻擊生成的模型將一組帶有標(biāo)記的輸入分類為它們的預(yù)定義標(biāo)簽的程度。我們還根據(jù)運(yùn)行時(shí)間而不是紀(jì)元數(shù)來評估我們攻擊的性能。紀(jì)元數(shù)取決于模型訓(xùn)練中的一些因素 - 例如輸入大小,而時(shí)間是一個(gè)獨(dú)立的度量。例如,在微調(diào)階段(第3.2節(jié))中,一個(gè)紀(jì)元的時(shí)間遠(yuǎn)遠(yuǎn)超過正則化中一個(gè)紀(jì)元的時(shí)間,因?yàn)槲⒄{(diào)的訓(xùn)練集大小至少是正則化中訓(xùn)練集大小的十倍。
4.2 Fine-Pruning Attack
Fine-pruning使用黑盒標(biāo)簽修剪休眠神經(jīng)元 - 即激活頻率低于閾值的神經(jīng)元 - 以去除后門。修剪后會(huì)進(jìn)行微調(diào)階段以提高準(zhǔn)確性。
我們的結(jié)果表明,使用黑盒標(biāo)簽進(jìn)行精修不能同時(shí)去除嵌入式水印并保持測試準(zhǔn)確性。圖6顯示了攻擊在不同閾值下的準(zhǔn)確性和水印保留情況。請注意,我們不考慮較大的閾值,因?yàn)樾藜粼S多神經(jīng)元會(huì)導(dǎo)致測試準(zhǔn)確性顯著下降。具體而言,在最佳情況下,對于抽象圖像,精修將水印保留降低到22.2%,而在 CIFAR-10 數(shù)據(jù)集上則降低了8.4% 的測試準(zhǔn)確性。相比之下,我們的白盒攻擊將水印保留降低到12.8%,僅減少了1% 的準(zhǔn)確性。
我們驗(yàn)證了在攻擊者能夠訪問地面真實(shí)標(biāo)簽的情況下,精修攻擊確實(shí)可以去除水印。然而,我們不將此攻擊視為與我們的攻擊進(jìn)行公平比較,因?yàn)樗谶@種強(qiáng)假設(shè)下進(jìn)行。
4.3 Our Results
4.3.1 水印去除。我們在表1中總結(jié)了我們的黑盒和白盒攻擊的結(jié)果。圖形表示在圖7、8和10中提供。我們在MNIST、CIFAR-10和Image-Net數(shù)據(jù)集上評估我們的攻擊,針對第2.3節(jié)描述的每種水印方案進(jìn)行評估:嵌入內(nèi)容、預(yù)定義噪聲和抽象圖像。
由于Abstract Images在其原始論文[1]中也用于對在CIFAR-100上訓(xùn)練的模型進(jìn)行水印處理,我們還包括了對這些模型進(jìn)行水印去除的實(shí)驗(yàn),如圖9所示。圖7、8、10和圖9(a)中的子圖(??)、(??)和(??)表示黑盒攻擊的結(jié)果。類似地,圖7、8、10和圖9(b)中的子圖(??)、(??)和(??)表示對相應(yīng)數(shù)據(jù)集的白盒攻擊結(jié)果。每個(gè)圖表評估了由算法????????????生成的模型,然后是A的評估,前者代表所有者的帶水印的模型,后者代表攻擊者的模型。如黑盒攻擊圖表(??)、(??)和(??)所示,攻擊者A在????????????完成訓(xùn)練水印模型???后開始訓(xùn)練其模型???(紅色虛線)。A從隨機(jī)權(quán)重開始訓(xùn)練,并查詢???為其輸入進(jìn)行標(biāo)記,然后訓(xùn)練模型。圖表顯示黑盒攻擊所需的時(shí)間與????????????訓(xùn)練???所需的時(shí)間相比。在這兩個(gè)模型中,訓(xùn)練持續(xù)到它們的測試準(zhǔn)確性在所需水平上穩(wěn)定。
我們的結(jié)果表明,黑盒攻擊刪除水印的性能與訓(xùn)練原始帶水印的模型相當(dāng),而白盒攻擊通過顯著加速實(shí)現(xiàn)了這一目標(biāo)。值得注意的是,通過允許精調(diào)時(shí)間更長,白盒攻擊甚至可以達(dá)到比帶水印模型更高的準(zhǔn)確性。
對于Image-Net數(shù)據(jù)集,我們還包括了一種黑盒攻擊,攻擊者可以獲取預(yù)測的概率向量的信息。我們展示了通過獲得此信息,攻擊者可以使用黑盒攻擊偷取Image-Net模型,僅使準(zhǔn)確性下降3%。在白盒攻擊中,我們優(yōu)化了攻擊以達(dá)到相同水平的準(zhǔn)確性,然后攻擊者只需要模型所有者(或黑盒攻擊)用于訓(xùn)練的30%的數(shù)據(jù)樣本,但在很短的時(shí)間內(nèi)就可以去除水印。白盒攻擊者的準(zhǔn)確性下降可以通過使用更大的(未標(biāo)記的)數(shù)據(jù)集進(jìn)一步降低。例如,當(dāng)使用100%的數(shù)據(jù)樣本時(shí),白盒攻擊對抽象圖像水印的準(zhǔn)確性下降不到1%。
4.4 Discussion on Experiments and Results
我們在這里進(jìn)一步討論我們攻擊中的參數(shù):
i) 阻止我們源模型達(dá)到最高準(zhǔn)確度的限制,
ii) 我們選擇模型背后的原因,
iii) 對模型必須在彈性后門和高準(zhǔn)確性之間進(jìn)行選擇的深入調(diào)查,并提供證據(jù),不能同時(shí)保持兩者。
4.4.1 不是最高準(zhǔn)確度。由于我們在實(shí)驗(yàn)中模擬了挑戰(zhàn)者和攻擊者,并希望不允許它們的訓(xùn)練數(shù)據(jù)集重疊,因此我們的模型實(shí)際上只能訪問一半的訓(xùn)練數(shù)據(jù)集。這個(gè)限制阻止了我們的源模型,甚至在MNIST和CIFAR-10實(shí)驗(yàn)中未標(biāo)記的模型,達(dá)到它們的最高可能準(zhǔn)確度。然而,盡管存在這個(gè)限制,我們的攻擊仍然成功地去除了嵌入的水印,同時(shí)保持了源模型的(降低的)準(zhǔn)確度。對于CIFAR-100和Image-Net,不重疊的要求導(dǎo)致超過10%的準(zhǔn)確度損失。因此,對于這種情況,我們允許水印模型和攻擊者模型的訓(xùn)練集重疊。
4.4.2 模型選擇。在我們的實(shí)驗(yàn)中,攻擊者對???采用與所有者為目標(biāo)水印模型???所使用的相同的模型架構(gòu)。這個(gè)選擇有兩個(gè)動(dòng)機(jī):
i) 正如Juuti等人所述,更高復(fù)雜度的模型在它們與源模型一樣復(fù)雜之前會(huì)提高預(yù)測準(zhǔn)確性。因此,一方面,攻擊者不能使用比目標(biāo)模型容量更小的模型,否則他將失去準(zhǔn)確性。另一方面,訓(xùn)練更高容量的模型需要更多資源,例如更多的查詢。這阻止了攻擊者訓(xùn)練比源模型容量更高的目標(biāo)模型。因此,我們的目標(biāo)模型是攻擊者實(shí)現(xiàn)最佳準(zhǔn)確性所需資源最少的最佳選擇。
ii) 我們攻擊中的水印去除取決于學(xué)習(xí)主分類,而不是學(xué)習(xí)針對具有與主數(shù)據(jù)不同分布的觸發(fā)集的預(yù)期誤分類。由于模型相似性可能增加后門傳輸?shù)臋C(jī)會(huì),我們?yōu)榱嗽黾庸粽弑A羲〉臋C(jī)會(huì),選擇使用與所有者相同的模型。這被認(rèn)為是攻擊者的最壞情況。盡管我們選擇的模型是水印傳輸最有可能的情況之一,但我們的攻擊成功地去除了水印,使得這種架構(gòu)成為攻擊者的最佳選擇。
4.4.3 水印保留和測試準(zhǔn)確性。除了我們攻擊成功去除水印之外,我們在實(shí)驗(yàn)中觀察到了另一個(gè)重要的結(jié)果。在我們的黑盒攻擊中,我們將模型竊取應(yīng)用于嵌入水印的完全訓(xùn)練好的模型 ???。為了研究對部分訓(xùn)練好的模型進(jìn)行模型竊取的成功性,我們反復(fù)將攻擊應(yīng)用于標(biāo)記的模型 ??? 在其訓(xùn)練過程中。竊取的模型 ??? 的測試準(zhǔn)確性和水印保留的結(jié)果繪制在圖11和圖12中,分別對應(yīng) MNIST 和 CIFAR-10 數(shù)據(jù)集。如果 ??? 達(dá)到更高的測試準(zhǔn)確性,攻擊就會(huì)獲得較低的水印保留。這增加模型準(zhǔn)確性的結(jié)果是通過在訓(xùn)練 ??? 過程中增加時(shí)代數(shù)來克服欠擬合的結(jié)果。欠擬合的模型 ??? 將其水印(后門或偏向后門的偏見)傳遞給竊取的網(wǎng)絡(luò) ???,使其更具有去除水印的韌性。顯然,我們的黑盒攻擊可以成功對抗任何100%準(zhǔn)確的模型。因此,對于白盒攻擊,子圖 (??)、(??) 和 (??),A 從 ???????????? 的參數(shù)開始運(yùn)行算法(第一個(gè)紅色虛線),并需要 ??? 對其輸入進(jìn)行標(biāo)記。A 首先經(jīng)歷了對 ??? 進(jìn)行正則化的階段,這個(gè)階段所需的時(shí)間相比于模型的訓(xùn)練時(shí)間較短。在去除水印后(第二個(gè)紅色虛線),A 進(jìn)行微調(diào),直到 ??? 在測試準(zhǔn)確性上與 ??? 為 ??-close(紅色虛線)。
水印保留只能通過模型的不準(zhǔn)確性引入。然而,我們的結(jié)果表明,這些不準(zhǔn)確性需要相當(dāng)顯著才能導(dǎo)致基于后門的水印的成功保留。
5 RELATED WORK
5.1 Black-box Watermarking Schemes
通過僅通過遠(yuǎn)程 API 訪問的神經(jīng)網(wǎng)絡(luò)的保護(hù)需求,鼓勵(lì)在深度神經(jīng)網(wǎng)絡(luò)中使用黑盒水印。DeepSigns將水印嵌入目標(biāo)層激活集的概率密度函數(shù)中,并引入了兩個(gè)版本的框架,以在白盒和黑盒環(huán)境中提供水印。在另外兩種方法中,作者使用對抗樣本在零比特水印算法中進(jìn)行水印處理,以實(shí)現(xiàn)在不需要模型參數(shù)的情況下提取水印。然而,這種方法需要對所使用的對抗樣本在其他網(wǎng)絡(luò)中的可轉(zhuǎn)移性進(jìn)行限制?;诤箝T的水印,正如本文所研究的那樣,是黑盒水印的另一種最近的研究方向,它在訓(xùn)練過程中向模型提供秘密觸發(fā)集及其預(yù)定義的標(biāo)簽以保護(hù)所有權(quán)。
5.2 Backdoor Removal
由于為神經(jīng)網(wǎng)絡(luò)設(shè)置后門可能帶來其他威脅,識別和消除這些威脅在研究中引起了關(guān)注。然而,通常這些系統(tǒng)旨在與神經(jīng)網(wǎng)絡(luò)一起使用。它們的任務(wù)僅僅是防止積極使用嵌入的后門,而這對于攻擊水印方案的情景并不適用,因?yàn)橛|發(fā)集從未被公開。有一些方案在任何時(shí)候都不需要訪問觸發(fā)集。NeuralCleanse方法首先通過檢查輸入圖像中應(yīng)該修改多少像素以使預(yù)測更改為另一個(gè)類別來檢測模型中是否存在后門。當(dāng)對于許多良性輸入存在一致的小修改時(shí),就假定存在后門,然后進(jìn)行逆向工程和緩解過程。該方法僅適用于被限制在圖像的小塊中的后門,而這不是本文中所有水印類型的情況。Fine-Pruning方法通過修剪多余的神經(jīng)元來消除后門。在第4.2節(jié)中詳細(xì)討論了這種攻擊。我們展示了精細(xì)修剪攻擊只能在訪問正確標(biāo)記的數(shù)據(jù)的情況下消除后門。
5.3 Removing Backdoor-based watermarks
在另一種消除基于后門的水印的方法中,Hitaj等人引入了Ensemble和Evasion攻擊來消除基于后門的水印。Ensemble攻擊竊取 ?? 模型并收集每個(gè)查詢的所有模型的響應(yīng)。然后,它選擇從被竊取的網(wǎng)絡(luò)的響應(yīng)中獲得的最高投票的答案,并將其作為API預(yù)測提供。與此攻擊相比,我們的攻擊僅需要一個(gè)標(biāo)記的模型,并生成一個(gè)可以重新分發(fā)的干凈模型。在的Evasion攻擊中,檢測器機(jī)制阻止了水印的驗(yàn)證。當(dāng)懷疑到一個(gè)查詢是水印觸發(fā)時(shí),該服務(wù)將返回一個(gè)隨機(jī)的類別預(yù)測。如果觸發(fā)樣本的分布與原始樣本相似,這種方法在消除后門時(shí)將不起作用。Chen等人通過對模型進(jìn)行微調(diào)來消除基于后門的水印,他們認(rèn)為先前的結(jié)果[1]表明基于后門的水印方案對微調(diào)的抵抗力是由于學(xué)習(xí)速率的低值。他們使用標(biāo)記的(20% - 80%)和未標(biāo)記的數(shù)據(jù)的組合來消除水印。我們的攻擊在不需要訪問標(biāo)記的數(shù)據(jù)、多個(gè)模型或規(guī)避旨在進(jìn)行水印驗(yàn)證的查詢的情況下破壞了基于后門的水印方案的安全性。
5.4 Model Stealing Attacks
Orekondy等人概括了模型竊取攻擊,其要求較之前文獻(xiàn)中的類似工作更少。我們在黑盒攻擊中采用了與Orekondy等人類似的方法,有兩個(gè)區(qū)別:i)我們使用與模型訓(xùn)練數(shù)據(jù)類似分布的數(shù)據(jù)而不是隨機(jī)圖像查詢目標(biāo)模型,ii)我們只需要查詢的最終標(biāo)簽而不是它們的概率向量。與概率向量相比,僅限制對最終標(biāo)簽的訪問是對先前模型竊取攻擊的一種提出的防御方法。我們的黑盒攻擊實(shí)現(xiàn)了接近標(biāo)記模型的準(zhǔn)確性,這表明這種提出的防御對模型竊取攻擊是不足夠的。
6 CONCLUSION文章來源:http://www.zghlxwxcb.cn/news/detail-790041.html
我們提出了兩種簡單而有效的攻擊方法,針對深度神經(jīng)網(wǎng)絡(luò)中的最新基于后門的水印方案:i)黑盒攻擊,和ii)白盒攻擊。目標(biāo)模型中的水印可以采用以下任何形式:i)標(biāo)志或嵌入的內(nèi)容,ii)預(yù)定義的噪聲模式,或iii)抽象圖像。我們的黑盒和白盒攻擊不需要訪問觸發(fā)集、帶水印模型的地面真相函數(shù)或任何標(biāo)記數(shù)據(jù)。這在準(zhǔn)備訓(xùn)練數(shù)據(jù)方面節(jié)省了大量的時(shí)間和資源。我們的攻擊使用來自標(biāo)記模型的公開已知領(lǐng)域的有限數(shù)量輸入,并查詢模型以獲取標(biāo)簽。它們成功地去除了模型的水印,并對分類準(zhǔn)確性幾乎沒有影響。我們的黑盒方法通過最小的訪問要求,僅利用模型的分類標(biāo)簽,實(shí)現(xiàn)了這些目標(biāo)。然而,提供更多信息(例如,標(biāo)記模型的參數(shù))使我們能夠設(shè)計(jì)比我們的黑盒攻擊更高效和準(zhǔn)確的白盒攻擊。文章來源地址http://www.zghlxwxcb.cn/news/detail-790041.html
到了這里,關(guān)于On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!