論文概述
發(fā)表于ICLR2017,論文地址:https://arxiv.org/pdf/1611.02770——深入研究可遷移的對(duì)抗樣本和黑盒攻擊
idea
遷移性是指一個(gè)模型生成的一些對(duì)抗樣本也可能被另一個(gè)模型錯(cuò)誤分類。
這篇文章其實(shí)是基于 Transferability in Machine Learning: from Phenomena to
Black-Box Attacks using Adversarial Samples 的改進(jìn)和進(jìn)一步研究,第一次使用不同方法在大規(guī)模數(shù)據(jù)集上生成targeted 和no-targeted對(duì)抗樣本研究遷移性。遷移性實(shí)驗(yàn)的成功,也讓作者對(duì)為什么能遷移成功進(jìn)行了探究,不同于以往的理論或者經(jīng)驗(yàn)分析,作者從模型的幾何特性(geometric properties)進(jìn)行了分析。
method
實(shí)驗(yàn)表明,no-targeted對(duì)抗樣本可以很好的遷移,但是targeted對(duì)抗樣本遷移性較弱,所以采用了ensemble model(集成模型)的方法,增大了遷移性。
詳細(xì)內(nèi)容
摘要
以前的工作主要研究使用小規(guī)模數(shù)據(jù)集的可遷移性。在這項(xiàng)工作中,我們是第一個(gè)對(duì)大型模型和大規(guī)模數(shù)據(jù)集的可遷移性進(jìn)行廣泛研究的人,我們也是第一個(gè)研究targeted對(duì)抗樣本及其targeted label的可遷移性的人。我們研究了非目標(biāo)對(duì)抗樣本和目標(biāo)對(duì)抗樣本,并表明雖然可轉(zhuǎn)移的非目標(biāo)對(duì)抗樣本很容易找到,但使用現(xiàn)有方法生成的目標(biāo)對(duì)抗樣本幾乎不會(huì)隨目標(biāo)標(biāo)簽一起轉(zhuǎn)移。因此,我們提出了新的基于集成的方法來(lái)生成可轉(zhuǎn)移的對(duì)抗樣本。
(以前的工作其實(shí)指的是這篇:Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,idea中有鏈接)
1.介紹
(開(kāi)始幾段就是講了講對(duì)抗樣本的發(fā)展過(guò)程,以及遷移性的存在;然后介紹了本文的工作內(nèi)容,包括非定向遷移的有效性,定向的集成攻擊遷移等)
主要貢獻(xiàn):
- 對(duì)于 ImageNet 模型,我們表明,雖然現(xiàn)有方法可以有效地生成非定向 (no-targeted)可遷移對(duì)抗樣本(第 3 節(jié)),但只有少數(shù)由現(xiàn)有方法生成的定向(targeted)對(duì)抗樣本可以遷移(第 4 節(jié))。
- 我們提出了新穎的基于集成的方法來(lái)生成對(duì)抗性示例(第 5 節(jié))。我們的方法首次使大部分定向的對(duì)抗樣本能夠在多個(gè)模型之間轉(zhuǎn)移。
- 我們是第一個(gè)提出為在 ImageNet 上訓(xùn)練的模型生成的 trageted 對(duì)抗樣本可以轉(zhuǎn)移到黑盒系統(tǒng),即 Clarifai.com。其模型、訓(xùn)練數(shù)據(jù)和標(biāo)簽集對(duì)我們來(lái)說(shuō)是未知的(第 7 節(jié))。特別是,Clarifai.com 的標(biāo)簽集與 ImageNet 的非常不同。
- 我們對(duì)在ImageNet 上訓(xùn)練的大型模型的幾何特性進(jìn)行了首次分析(第6 節(jié)),結(jié)果揭示了一些有趣的發(fā)現(xiàn),例如不同模型的梯度方向彼此正交。
2 對(duì)抗深度學(xué)習(xí)和可遷移性
2.1 對(duì)抗深度學(xué)習(xí)問(wèn)題
(主要講的是對(duì)抗攻擊問(wèn)題的定義)
2.2 對(duì)抗樣本生成的方法
2.2.1 生成非定向?qū)箻颖镜姆椒?br>
f
θ
(
x
?
)
≠
y
(
1
)
;
d
(
x
,
x
?
)
≤
B
(
2
)
f_{\theta}(x^*)\neq y (1); d(x,x^*) \leq B (2)
fθ?(x?)?=y(1);d(x,x?)≤B(2)
其中 d(·,·) 是量化原始圖像與其對(duì)抗樣本之間距離的度量,B稱為失真,是該距離的上限。
-
基于優(yōu)化
a r g min ? x ? λ d ( x , x ? ) ? l ( 1 y ? , J θ ( x ? ) ) arg \min_{x^*} \lambda d(x,x^*)-l(1_{y^*},J_{\theta}(x^*)) argx?min?λd(x,x?)?l(1y??,Jθ?(x?))
其中 1 y 1_y 1y?是ground trurh標(biāo)簽 y 的 one-hot 編碼, l l l是衡量預(yù)測(cè)與ground truth之間距離的損失函數(shù),λ 是平衡約束 (2) 和 (1) 的常數(shù)。這里,損失函數(shù) l l l用于逼近約束(1),它的選擇會(huì)影響搜索對(duì)抗樣本的有效性。
損失函數(shù)選擇的是 l ( u , v ) = l o g ( 1 ? u v ) l(u,v)=log(1-uv) l(u,v)=log(1?uv),來(lái)源于CW攻擊(論文pdf) -
FGS
x ? = c l i p ( x + B s g n ( ? x l ( 1 y , J θ ( x ) ) ) ) x^*=clip(x+Bsgn(\nabla_x l(1_y,J_{\theta}(x)))) x?=clip(x+Bsgn(?x?l(1y?,Jθ?(x))))
其中clip(x) 用于將 x 的每個(gè)維度裁剪到像素值的范圍內(nèi),即本文中的 [0, 255]。 l ( u , v ) = l o g ( 1 ? u v ) l(u,v)=log(1-uv) l(u,v)=log(1?uv) -
FG
(與FGS類似,就不多介紹了)
2.2.2 生成定向?qū)箻颖镜姆椒?br> (類似,稍作修改)
2.3 評(píng)估方法
-
模型
5個(gè)模型:ResNet-50, ResNet-101, ResNet-152 ,GoogLeNet and VGG-16 -
數(shù)據(jù)
從 ILSVRC 2012 驗(yàn)證集中,我們隨機(jī)選擇了 100 張圖像 -
Measuring transferability(衡量遷移性)
在給定兩個(gè)模型的情況下,我們通過(guò)計(jì)算一個(gè)模型生成的可被正確分類為另一個(gè)模型的對(duì)抗樣本的百分比
來(lái)衡量 no-targeted 可轉(zhuǎn)移性,我們把這個(gè)百分比稱為準(zhǔn)確率。較低的精確度意味著更好的非定向可轉(zhuǎn)移性。
我們通過(guò)計(jì)算一個(gè)模型生成的被另一個(gè)模型歸類為 targeted 標(biāo)簽的對(duì)抗性樣本的百分比
來(lái)衡量目標(biāo)可轉(zhuǎn)移性。我們將這個(gè)百分比稱為匹配率。更高的匹配率意味著更好的定向可轉(zhuǎn)移性。
(這個(gè)很重要,理解準(zhǔn)確率和匹配率,才能看懂下文的實(shí)驗(yàn)表格) -
Distortion
除了可轉(zhuǎn)移性,另一個(gè)重要因素是對(duì)抗圖像與原始圖像之間的失真,采用的是root mean square deviation,RMSD,公式: d ( x , x ? ) = ∑ i ( x i ? ? x i ) 2 / N d(x,x^*)=\sqrt{\sum_i (x_i^*-x_i)^2/N} d(x,x?)=i∑?(xi???xi?)2/N?
N 是 x x x和 x ? x^* x? 的維數(shù), x i x_i xi? 表示 x 的第 i 個(gè)維度的像素值,在 [0, 255] 范圍內(nèi)
3. 非定向?qū)箻颖?/h3>
3.1 基于優(yōu)化
(主要講了下實(shí)驗(yàn)設(shè)置,可以通過(guò)調(diào)整Adam和λ 的學(xué)習(xí)率來(lái)調(diào)整 RMSD。小失真的對(duì)抗樣本可以攻擊成功但不能很好地遷移(附錄表15和表16)。增大失真,lr 設(shè)置為4,進(jìn)行實(shí)驗(yàn))
單元格(i,j)表示為模型 i(行)生成的對(duì)抗圖像在模型 j(列)上評(píng)估的準(zhǔn)確性。
通過(guò)實(shí)驗(yàn)分析:
- 對(duì)角線包含所有 0 值。這意味著為一個(gè)模型生成的所有對(duì)抗性圖像都可能誤導(dǎo)同一個(gè)模型。(對(duì)角線相當(dāng)于白盒)
- 使用基于優(yōu)化的方法為一個(gè)模型生成的大部分no-targeted對(duì)抗性圖像可以轉(zhuǎn)移到另一個(gè)模型。
- 盡管三個(gè) ResNet 模型共享相似的架構(gòu),僅在超參數(shù)上有所不同,但針對(duì) ResNet 模型生成的對(duì)抗性示例不一定比其他非 ResNet 模型更好地轉(zhuǎn)移到另一個(gè) ResNet 模型。
3.2 基于FGSM
(基于梯度的快速方法的一個(gè)優(yōu)點(diǎn)是所有生成的對(duì)抗樣本都位于一維子空間中。通過(guò)控制 RMSD 來(lái)研究基于梯度的快速方法的有效性)
3.2.1 基于梯度的快速方法的有效性和可遷移性
由于生成的對(duì)抗圖像的失真 B 和 RMSD 高度相關(guān),我們可以選擇這個(gè)超參數(shù) B 來(lái)生成具有給定 RMSD 的對(duì)抗圖像。
在表 1 panel B 中,我們使用 FG 生成對(duì)抗圖像,使得平均 RMSD 與使用基于優(yōu)化的方法生成的圖像幾乎相同。我們觀察到對(duì)角線值都是postive,這意味著FG不能完全誤導(dǎo)模型。一個(gè)潛在的原因是,F(xiàn)G 可以被視為近似優(yōu)化,但它是針對(duì)速度而不是準(zhǔn)確性量身定制的。
另一方面,表中非對(duì)角單元格的值對(duì)應(yīng)于為一個(gè)模型生成但在另一個(gè)模型上評(píng)估的對(duì)抗性圖像的準(zhǔn)確性,與基于優(yōu)化的方法中的對(duì)應(yīng)物相當(dāng)或更低。這表明 FG 生成的非目標(biāo)對(duì)抗樣本也表現(xiàn)出可遷移性。
4. 定向?qū)箻颖?/h3>
(實(shí)驗(yàn)結(jié)果如下)
觀察發(fā)現(xiàn):
(1)當(dāng)在用于生成對(duì)抗樣本的同一模型上進(jìn)行評(píng)估時(shí),targeted對(duì)抗圖像的預(yù)測(cè)可以匹配目標(biāo)標(biāo)簽
(2)但是 targeted 對(duì)抗圖像很少能被不同的模型預(yù)測(cè)為目標(biāo)標(biāo)簽。我們稱后者為目標(biāo)標(biāo)簽不轉(zhuǎn)移(the target labels do not transfer.)。即使增加了失真,仍然沒(méi)有觀察到目標(biāo)標(biāo)簽轉(zhuǎn)移的改進(jìn)
5.集成的方法
(在Section 4中已經(jīng)發(fā)現(xiàn)定向攻擊的遷移效果很不好,所以采用集成的方法)
給定 k 個(gè) softmax 輸出為 J1、…、Jk、原始圖像 x 及其ground truth y 的白盒模型,基于集成的方法解決了以下優(yōu)化問(wèn)題:
a r g min ? x ? ? l o g ( ∑ i = 1 k α i J i ( x ? ) ? l y ? ) + λ d ( x , x ? ) arg \min_{x^*} -log(\sum_{i=1}^k \alpha_i J_i(x^*) \cdot l_{y^*})+\lambda d(x,x^*) argx?min??log(i=1∑k?αi?Ji?(x?)?ly??)+λd(x,x?)
其中 y ? y^* y? 是攻擊圖片的標(biāo)簽, ∑ i = 1 k α i J i ( x ? ) \sum_{i=1}^k \alpha_i J_i(x^*) ∑i=1k?αi?Ji?(x?) 是集成的模型, α i \alpha_i αi? 是系數(shù)。則我們希望生成的對(duì)抗圖像對(duì)于額外的黑盒模型 Jk+1 保持對(duì)抗性。
- 基于優(yōu)化的方法
(首先說(shuō)了下實(shí)驗(yàn)設(shè)置,targeted adversarial,實(shí)驗(yàn)結(jié)果如下)
targeted攻擊匹配率,單元格(i,j)表示為模型 i(行)之外的四個(gè)模型的集合生成的目標(biāo)對(duì)抗圖像的百分比被模型 j(列)預(yù)測(cè)為目標(biāo)標(biāo)簽
(non-targeted adversarial,實(shí)驗(yàn)結(jié)果如下)
(基于梯度的方法實(shí)驗(yàn)結(jié)果見(jiàn)附錄)
6.幾何特征
在本節(jié)中,我們展示了模型的一些幾何特性,以試圖更好地理解可遷移的對(duì)抗樣本。先前的工作還試圖從理論上或經(jīng)驗(yàn)理解對(duì)抗樣本的幾何特性。在這項(xiàng)工作中,我們檢查了在具有 1000 個(gè)標(biāo)簽的大型數(shù)據(jù)集上訓(xùn)練的大型模型,其幾何屬性以前從未研究過(guò)。這使我們能夠進(jìn)行新的觀察,以更好地理解模型及其對(duì)抗性示例
1.我們?cè)u(píng)估中不同模型的梯度方向幾乎相互正交
不同模型的對(duì)抗方向相互正交的
2.使用單個(gè)模型的非目標(biāo)方法的決策邊界。
我們研究了不同模型的決策邊界,以了解對(duì)抗樣本遷移的原因。我們選擇兩個(gè)歸一化正交方向δ1、δ2,一個(gè)是VGG-16的梯度方向,另一個(gè)是隨機(jī)選擇的。此二維平面中的每個(gè)點(diǎn) (u, v) 對(duì)應(yīng)于圖像 x + uδ1 + vδ2,其中 x 是原始圖像的像素值向量
我們可以觀察到:
- 對(duì)于所有模型,每個(gè)模型能夠正確預(yù)測(cè)圖像的區(qū)域都局限于中心區(qū)域。
- 沿著梯度方向,分類器很快就會(huì)被誤導(dǎo)。
- 對(duì)于每個(gè)平面,所有平面上最多有 21 個(gè)不同的區(qū)域。與 ImageNet 中的 1000 個(gè)總類別相比,這僅占所有類別的 2.1%。這意味著,對(duì)于所有其他 97.9% 的標(biāo)簽,每個(gè)平面中都不存在有針對(duì)性的對(duì)抗樣本。這種現(xiàn)象部分解釋了為什么基于快速梯度的方法很難找到有targeted的對(duì)抗性圖像。
此外,我們?cè)谕黄矫嫔侠L制所有模型的決策邊界文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-403318.html

我們觀察到:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-403318.html
- 邊界彼此非常吻合。這就解釋了為什么非目標(biāo)對(duì)抗圖像可以在模型之間傳輸。
- 沿梯度方向的邊界直徑小于沿隨機(jī)方向的邊界直徑。一個(gè)潛在的原因是沿其梯度方向移動(dòng)變量可以顯著改變損失函數(shù)
- 一個(gè)有趣的發(fā)現(xiàn)是,即使我們沿 x 軸向左移動(dòng),這相當(dāng)于最大化ground truth的預(yù)測(cè)概率,它也比沿隨機(jī)方向移動(dòng)更快地到達(dá)邊界。我們將此歸因于損失函數(shù)的非線性:當(dāng)失真較大時(shí),梯度方向也會(huì)發(fā)生巨大變化。在這種情況下,沿原始梯度方向移動(dòng)不再增加預(yù)測(cè)ground truth標(biāo)簽的概率(參見(jiàn)附錄中的圖 7)。
- 對(duì)于VGG-16 模型,在對(duì)應(yīng)于ground truth 的區(qū)域內(nèi)有一個(gè)小洞。這可以部分解釋為什么存在具有小失真的非目標(biāo)對(duì)抗性圖像,但不能很好地轉(zhuǎn)移。這個(gè)漏洞在其他模型的決策平面上是不存在的。在這種情況下,這個(gè)洞中的非目標(biāo)對(duì)抗性圖像不會(huì)轉(zhuǎn)移。
到了這里,關(guān)于【對(duì)抗攻擊論文筆記】對(duì)抗遷移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!