Feature Separation and Recalibration for Adversarial Robustness
論文鏈接:http://arxiv.org/abs/2303.13846v1
代碼地址:GitHub - wkim97/FSR: Feature Separation and Recalibration (CVPR 2023)
摘要:由于特征層面的擾動積累,深度神經(jīng)網(wǎng)絡(luò)容易受到對抗性攻擊,許多研究通過停用導(dǎo)致模型錯誤預(yù)測的非魯棒特征激活來提高模型的魯棒性。然而,我們聲稱這些惡意激活仍然包含判別線索,并且通過重新校準(zhǔn),它們可以捕獲額外的有用信息以進行正確的模型預(yù)測。為此,我們提出了一種新穎的,易于插件的方法,稱為特征分離和重新校準(zhǔn)(FSR),它通過分離和重新校準(zhǔn)來重新校準(zhǔn)惡意的,非魯棒的激活,以獲得更魯棒的特征映射。分離部分將輸入特征映射分解為具有幫助模型做出正確預(yù)測的激活的魯棒特征和具有在對抗性攻擊時導(dǎo)致模型錯誤預(yù)測的激活的非魯棒特征。然后,重新校準(zhǔn)部分調(diào)整非魯棒激活,以恢復(fù)模型預(yù)測的潛在有用線索。大量的實驗驗證了FSR與傳統(tǒng)失活技術(shù)相比的優(yōu)越性,并表明它在計算開銷較小的情況下將現(xiàn)有對抗性訓(xùn)練方法的魯棒性提高了8.57%。
CFA: Class-wise Calibrated Fair Adversarial Training
論文鏈接:http://arxiv.org/abs/2303.14460v1
代碼地址:GitHub - PKU-ML/CFA
摘要:對抗訓(xùn)練被廣泛認(rèn)為是提高深度神經(jīng)網(wǎng)絡(luò)(DNN)對對抗示例的對抗魯棒性的最有效方法。到目前為止,大多數(shù)現(xiàn)有的工作都集中在增強整體模型的魯棒性上,在訓(xùn)練和測試階段平等地對待每個類。雖然揭示了類之間魯棒性的差異,但很少有作品試圖在不犧牲整體魯棒性的情況下使類水平上的對抗性訓(xùn)練公平。在本文中,我們首先從理論上和經(jīng)驗上研究了不同類別對對抗配置的偏好,包括擾動邊際、正則化和加權(quán)平均。受此啟發(fā),我們進一步提出了一個分類校準(zhǔn)公平對抗訓(xùn)練框架,命名為CFA,它自動為每個類別定制特定的訓(xùn)練配置。在基準(zhǔn)數(shù)據(jù)集上的實驗表明,與其他最先進的方法相比,我們提出的CFA可以顯著提高整體魯棒性和公平性。
BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning
論文鏈接:http://arxiv.org/abs/2303.14773v1
代碼地址:GitHub - changdaeoh/BlackVIP: Official implementation for CVPR'23 paper "BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning"
摘要:隨著大規(guī)模預(yù)訓(xùn)練模型(PTMs)的激增,對這些模型進行微調(diào)以適應(yīng)眾多下游任務(wù)成為一個關(guān)鍵問題。因此,大型模型的參數(shù)高效遷移學(xué)習(xí)(PETL)受到了廣泛的關(guān)注。雖然最近的PETL方法展示了令人印象深刻的性能,但它們依賴于樂觀的假設(shè):1)PTM的整個參數(shù)集是可用的,2)為微調(diào)配備了足夠大的內(nèi)存容量。然而,在大多數(shù)現(xiàn)實世界的應(yīng)用程序中,PTM 被用作黑盒API或?qū)S熊浖瑳]有明確的參數(shù)可訪問性。此外,現(xiàn)代 PTM 很難滿足大容量的內(nèi)存需求。在這項工作中,我們提出了黑盒視覺提示(BlackVIP),它可以在不了解模型體系結(jié)構(gòu)和參數(shù)的情況下有效地適應(yīng)PTM 。BlackVIP有兩個組成部分;1)協(xié)調(diào)器 和2)梯度校正同步攝動隨機逼近(SPSA-GC)。協(xié)調(diào)器設(shè)計了依賴于輸入的圖像形視覺提示,提高了對分布/位置移動的少鏡頭適應(yīng)和魯棒性。SPSA-GC可以有效地估計目標(biāo)模型的梯度來更新協(xié)調(diào)器。在16個數(shù)據(jù)集上進行的大量實驗表明,BlackVIP能夠在不訪問PTMs參數(shù)的情況下對不同領(lǐng)域進行魯棒適應(yīng),并且內(nèi)存需求最小。
Reinforcement Learning-Based Black-Box Model Inversion Attacks
論文鏈接:http://arxiv.org/abs/2304.04625v1
摘要:模型反轉(zhuǎn)攻擊是一種隱私攻擊,僅通過訪問模型來重建用于訓(xùn)練機器學(xué)習(xí)模型的私有數(shù)據(jù)。近年來,利用生成對抗網(wǎng)絡(luò)(GANs)從公共數(shù)據(jù)集中提取知識的白盒模型反轉(zhuǎn)攻擊因其優(yōu)異的攻擊性能而受到廣泛關(guān)注。另一方面,目前利用gan的黑盒模型反轉(zhuǎn)攻擊存在無法保證在預(yù)定的查詢訪問次數(shù)內(nèi)完成攻擊過程或無法達到與白盒攻擊相同的性能水平等問題。為了克服這些限制,我們提出了一種基于強化學(xué)習(xí)的黑盒模型反轉(zhuǎn)攻擊。我們將潛在空間搜索描述為馬爾可夫決策過程(MDP)問題,并使用強化學(xué)習(xí)來解決它。我們的方法利用生成圖像的置信度分?jǐn)?shù)為代理提供獎勵。最后,利用在MDP中訓(xùn)練的智能體找到的潛在向量來重構(gòu)私有數(shù)據(jù)。在各種數(shù)據(jù)集和模型上的實驗結(jié)果表明,我們的攻擊成功地恢復(fù)了目標(biāo)模型的私有信息,達到了最先進的攻擊性能。我們通過提出一種更先進的黑盒模型反轉(zhuǎn)攻擊來強調(diào)隱私保護機器學(xué)習(xí)研究的重要性。
Demystifying Causal Features on Adversarial Examples and Causal Inoculation for Robust Network by Adversarial Instrumental Variable Regression
論文鏈接:https://arxiv.org/abs/2303.01052
摘要:對抗樣本的起源在研究領(lǐng)域仍然是一個難以解釋的問題,雖然研究比較全面,但也引起了各種觀點的爭論。在本文中,我們提出了一種從因果角度深入研究對抗訓(xùn)練網(wǎng)絡(luò)中意外脆弱性的方法,即對抗工具變量(IV)回歸。通過部署它,我們估計了在與未知混雜因素分離的無偏環(huán)境下對抗性預(yù)測的因果關(guān)系。我們的方法旨在通過利用隨機特征估計器(即假設(shè)模型)和最壞情況反事實(即測試函數(shù))之間的零和優(yōu)化游戲來尋找因果特征,從而揭開對抗性示例中固有因果特征的神秘面紗。通過廣泛的分析,我們證明了估計的因果特征與對抗性魯棒性的正確預(yù)測高度相關(guān),而反事實表現(xiàn)出明顯偏離正確預(yù)測的極端特征。此外,我們提出了如何有效地將因果特征(CAFE)接種到防御網(wǎng)絡(luò)中以提高對抗魯棒性。
Improving the Transferability of Adversarial Samples by Path-Augmented Method
論文鏈接:http://arxiv.org/abs/2303.15735v1
摘要:深度神經(jīng)網(wǎng)絡(luò)在多種視覺任務(wù)上取得了前所未有的成功。然而,它們很容易受到人類無法察覺的敵對噪音的影響。這種現(xiàn)象會對它們在實際場景中的部署產(chǎn)生負(fù)面影響,尤其是與安全相關(guān)的場景。為了在實踐中評估目標(biāo)模型的魯棒性,基于遷移的攻擊利用局部模型制作對抗樣本,并因其高效率而越來越受到研究人員的關(guān)注。最先進的基于遷移的攻擊通常是基于數(shù)據(jù)增強的,它通常在學(xué)習(xí)對抗樣本時從線性路徑增強多個訓(xùn)練圖像。然而,這些方法啟發(fā)式地選擇了圖像增強路徑,并且可能會增強與目標(biāo)圖像語義不一致的圖像,這損害了生成的對抗樣本的可遷移性。為了克服這一缺陷,我們提出了路徑增強方法(PAM)。具體來說,PAM首先構(gòu)造一個候選增強路徑池。然后用貪婪搜索確定對抗樣本生成過程中所使用的增強路徑。此外,為了避免增強語義不一致的圖像,我們訓(xùn)練了一個語義預(yù)測器(SP)來約束增強路徑的長度。大量的實驗證實,在攻擊成功率方面,與最先進的基線相比,PAM可以實現(xiàn)平均超過4.8%的改進。
Adversarial Attack with Raindrops
論文鏈接:https://arxiv.org/pdf/2302.14267.pdf
摘要:眾所周知,深度神經(jīng)網(wǎng)絡(luò)(DNN)容易受到對抗樣本的攻擊,這些對抗樣本通常是人為設(shè)計來欺騙DNN的,但在現(xiàn)實世界中很少存在。在本文中,我們研究了由雨滴引起的對抗樣本,以證明存在大量的自然現(xiàn)象能夠作為DNN的對抗性攻擊者。此外,我們提出了一種新的方法來生成對抗雨滴,表示為AdvRD,使用生成對抗網(wǎng)絡(luò)(GAN)技術(shù)來模擬自然雨滴。我們的AdvRD制作的圖像看起來與現(xiàn)實世界的雨滴圖像非常相似,在統(tǒng)計上接近真實雨滴圖像的分布,更重要的是,它可以對最先進的DNN模型進行強烈的對抗攻擊。另一方面,我們證明了使用AdvRD圖像的對抗性訓(xùn)練可以顯著提高DNN對現(xiàn)實世界雨滴攻擊的魯棒性。大量的實驗表明,AdvRD制作的圖像在視覺上和統(tǒng)計上接近自然雨滴圖像,可以作為DNN模型的強攻擊者,也有助于提高DNN對雨滴攻擊的魯棒性。
Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization
論文鏈接:http://arxiv.org/abs/2303.15754v1
摘要:Vision transformers(ViTs)已經(jīng)成功地部署在各種計算機視覺任務(wù)中,但它們?nèi)匀蝗菀资艿綄箻颖镜墓簟;谶w移的攻擊是利用局部模型生成對抗樣本,并將其直接遷移攻擊目標(biāo)黑盒模型?;谶w移的攻擊效率高,對基于虛擬網(wǎng)關(guān)的應(yīng)用構(gòu)成了嚴(yán)重的安全威脅。因此,在安全敏感的場景下,設(shè)計有效的基于遷移的攻擊,提前識別ViT的不足是至關(guān)重要的?,F(xiàn)有的工作一般集中在正則化輸入梯度以穩(wěn)定對抗樣本的更新方向方面。然而,在ViT的中間塊中,反向傳播梯度的方差仍然可能很大,這可能會使生成的對抗樣本專注于某些特定于模型的特征,而陷入較差的局部最優(yōu)。為了克服現(xiàn)有方法的不足,我們提出了Token Gradient Regularization(TGR)方法。根據(jù)ViT的結(jié)構(gòu)特點,TGR以標(biāo)記方式減少ViT內(nèi)部各塊中反向傳播梯度的方差,并利用正則化梯度生成對抗性樣本。大量攻擊ViT和CNN的實驗證實了我們方法的優(yōu)越性。值得注意的是,與最先進的基于遷移的攻擊相比,我們的TGR平均提供了8.8%的性能改進。
Re-thinking Model Inversion Attacks Against Deep Neural Networks
論文鏈接:http://arxiv.org/abs/2304.01669v1
代碼地址:Re-thinking Model Inversion Attacks Against Deep Neural Networks
摘要:模型反轉(zhuǎn)(MI)攻擊的目的是通過濫用對模型的訪問來推斷和重構(gòu)私有訓(xùn)練數(shù)據(jù)。人工智能攻擊引起了人們對敏感信息泄露的擔(dān)憂(例如,在訓(xùn)練人臉識別系統(tǒng)時使用的私人人臉圖像)。近年來,為了提高攻擊性能,人們提出了幾種機器學(xué)習(xí)算法。在這項工作中,我們重新審視了智能智能,研究了與所有最先進的(SOTA)智能智能算法相關(guān)的兩個基本問題,并提出了解決這些問題的方案,這些問題導(dǎo)致所有SOTA智能智能的攻擊性能顯著提高。特別是,我們的貢獻有兩個方面:1)我們分析了SOTA智能智能算法的優(yōu)化目標(biāo),認(rèn)為該目標(biāo)對于實現(xiàn)智能智能來說是次優(yōu)的,并提出了一個改進的優(yōu)化目標(biāo),顯著提高了攻擊性能。2)我們分析了“MI過擬合”,發(fā)現(xiàn)它會阻礙重建圖像學(xué)習(xí)訓(xùn)練數(shù)據(jù)的語義,并提出了一種新的“模型增強”思想來克服這一問題。我們提出的解決方案簡單,并顯著提高了所有SOTA MI攻擊的準(zhǔn)確性。例如,在標(biāo)準(zhǔn)的CelebA基準(zhǔn)測試中,我們的解決方案將準(zhǔn)確率提高了11.8%,并首次實現(xiàn)了超過90%的攻擊準(zhǔn)確率。我們的研究結(jié)果表明,從深度學(xué)習(xí)模型中泄露敏感信息存在明顯的風(fēng)險。我們敦促認(rèn)真考慮對隱私的影響。
Defending Against Patch-based Backdoor Attacks on Self-Supervised Learning
論文鏈接:http://arxiv.org/abs/2304.01482v1
代碼地址:GitHub - UCDvision/PatchSearch: Code for the CVPR '23 paper, "Defending Against Patch-based Data Poisoning Backdoor Attacks on Self-Supervised Learning"
摘要:最近,自監(jiān)督學(xué)習(xí)(SSL)被證明容易受到基于補丁的數(shù)據(jù)中毒后門攻擊。攻擊者可以毒害一小部分未標(biāo)記的數(shù)據(jù),以便當(dāng)受害者在其上訓(xùn)練SSL模型時,最終模型將具有攻擊者可以利用的后門。這項工作旨在保護自監(jiān)督學(xué)習(xí)免受此類攻擊。我們使用三步防御管道,首先在有毒數(shù)據(jù)上訓(xùn)練模型。在第二步中,我們提出的防御算法(PatchSearch)使用訓(xùn)練好的模型來搜索訓(xùn)練數(shù)據(jù)中的有毒樣本,并將它們從訓(xùn)練集中移除。第三步,在清理后的訓(xùn)練集上訓(xùn)練最終模型。我們的結(jié)果表明,PatchSearch是一種有效的防御方法。作為一個樣本,它將模型對包含觸發(fā)器的圖像的準(zhǔn)確率從38.2%提高到63.7%,非常接近clean模型的準(zhǔn)確率64.6%。此外,我們還表明,PatchSearch優(yōu)于基線和最先進的防御方法,包括那些使用額外干凈、可信數(shù)據(jù)的方法。
Jedi: Entropy-based Localization and Removal of Adversarial Patches
論文鏈接:http://arxiv.org/abs/2304.10029v1
摘要:在各種計算機視覺應(yīng)用中,現(xiàn)實世界的對抗性物理補丁被證明在妥協(xié)最先進的模型中是成功的。基于輸入梯度或特征分析的現(xiàn)有防御已經(jīng)被最近基于 GAN 的攻擊所破壞,這些攻擊會產(chǎn)生自然補丁。在本文中,我們提出了Jedi,這是一種針對對抗性補丁的新防御,它對現(xiàn)實補丁攻擊具有彈性。Jedi從信息論的角度解決了補丁定位問題;利用兩個新的思想:(1)利用熵分析改進了潛在斑塊區(qū)域的識別:我們發(fā)現(xiàn)即使在自然斑塊中,對抗斑塊的熵也很高;(2)使用能夠從高熵核中完成補丁區(qū)域的自編碼器,提高了對抗性補丁的定位。Jedi實現(xiàn)了高精度的對抗性補丁定位,這對于成功修復(fù)圖像至關(guān)重要。由于Jedi依賴于輸入熵分析,因此它是模型不可知的,并且可以應(yīng)用于預(yù)訓(xùn)練的現(xiàn)成模型,而無需更改受保護模型的訓(xùn)練或推理。Jedi在不同的基準(zhǔn)測試中平均檢測到90%的對抗補丁,并恢復(fù)高達94%的成功補丁攻擊(相比之下,LGS和Jujutsu分別為75%和65%)。
Single Image Backdoor Inversion via Robust Smoothed Classifiers
論文鏈接:https://arxiv.org/pdf/2303.00215.pdf
Backdoor Defense via Adaptively Splitting Poisoned Dataset
論文鏈接:http://arxiv.org/abs/2303.12993v1
代碼地址:GitHub - KuofengGao/ASD: [CVPR 2023] Backdoor Defense via Adaptively Splitting Poisoned Dataset
Detecting Backdoors in Pre-trained Encoders
論文鏈接:http://arxiv.org/abs/2303.15180v1文章來源:http://www.zghlxwxcb.cn/news/detail-494281.html
代碼地址:https://github.com/GiantSeaweed/DECREE文章來源地址http://www.zghlxwxcb.cn/news/detail-494281.html
到了這里,關(guān)于CVPR2023對抗攻擊相關(guān)論文的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!