背景
什么是隱私
講差分隱私前,說一下什么是隱私
其實隱私這個定義,各家有各家的說法,而且各人有各人不同的考量。目前普遍比較接受的是:“單個用戶的某一些屬性” 可以被看做是隱私。這個說法里所強調(diào)的是:單個用戶。也就是說,如果是一群用戶的某一些屬性,那么可以不看做隱私。
舉個例子:醫(yī)院說,抽煙的人有更高的幾率會得肺癌。這個不泄露任何隱私。但是如果醫(yī)院說,張三因為抽煙,所以有了肺癌。那么這個就是隱私泄露了。好,那么進一步,雖然醫(yī)院發(fā)布的是趨勢,說抽煙的人更高幾率得肺癌。然后大家都知道張三抽煙,那么是不是張三就會有肺癌呢?那么這算不算隱私泄露呢?結(jié)論是不算,因為張三不一定有肺癌,大家只是通過一個趨勢猜測的。
所以,從隱私保護的角度來說,隱私的主體是單個用戶,只有牽涉到某個特定用戶的才叫隱私泄露,那么我們是不是可以任意發(fā)布聚集信息呢?倒是未必。我們設(shè)想這樣一種情況:醫(yī)院發(fā)布了一系列信息,說我們醫(yī)院這個月有100個病人,其中有10個感染HIV。假如攻擊者知道另外99個人是否有HIV的信息,那么他只需要把他知道的99個人的信息和醫(yī)院發(fā)布的信息比對,就可以知道第100個人是否感染HIV。這種對隱私的攻擊行為就是差分攻擊。
差分隱私
差分隱私顧名思義就是用來防范差分攻擊的。舉個簡單的例子,假設(shè)現(xiàn)在有一個婚戀數(shù)據(jù)庫,2個單身8個已婚,只能查有多少人單身。剛開始的時候查詢發(fā)現(xiàn),2個人單身;現(xiàn)在張三跑去登記了自己婚姻狀況,再一查,發(fā)現(xiàn)3個人單身,所以張三單身。
從群里數(shù)據(jù)通過差分攻擊(查詢的方式)推測個體隱私。
差分隱私(Differential Privacy)是Dwork 在2006年針對數(shù)據(jù)庫的隱私泄露問題提出的一種新的隱私定義。主要是通過使用隨機噪聲來確保,查詢請求公開可見信息的結(jié)果,并不會泄露個體的隱私信息,即提供一種當(dāng)從統(tǒng)計數(shù)據(jù)庫查詢時,最大化數(shù)據(jù)查詢的準(zhǔn)確性,同時最大限度減少識別其記錄的機會,簡單來說,就是保留統(tǒng)計學(xué)特征的前提下去除個體特征以保護用戶隱私。
怎么實現(xiàn)差分隱私呢,簡單的說就是向數(shù)據(jù)中加入噪聲。但差分隱私的優(yōu)勢就在于這個噪聲并不是隨便加的,而是通過數(shù)學(xué)方法得到一個平衡,通過對差分隱私參數(shù)的調(diào)節(jié),可以讓用戶在隱私保護強度和數(shù)據(jù)可用性之間尋求一個合適的平衡點。
為了更好的理解差分隱私的定義,這里先介紹一些關(guān)于信息量和熵的知識。
KL散度
KL散度(Kullback Leible-Divergence)概念來源于概率論與信息論,又被稱作相對熵、互熵。從統(tǒng)計學(xué)意義上來說,KL散度可以用來衡量兩個分布之間的差異程度,差異越小,KL散度越小。
信息量
任何事件都會承載著一定的信息量,包括已經(jīng)發(fā)生的事件和未發(fā)生的事件,只是它們承載的信息量會有所不同。如昨天下雨這個已知事件,因為已經(jīng)發(fā)生,既定事實,那么它的信息量就為0。如明天會下雨這個事件,因為未有發(fā)生,那么這個事件的信息量就大。
從上面例子可以看出信息量是一個與事件發(fā)生概率相關(guān)的概念,而且可以得出,事件發(fā)生的概率越小,其信息量越大。這也很好理解,狗咬人不算信息,人咬狗才叫信息嘛。
我們已知某個事件的信息量是與它發(fā)生的概率有關(guān),那我們可以通過如下公式計算信息量:
熵
信息論中熵定義首次被香農(nóng)提出:無損編碼事件信息的最小平均編碼長度。通俗理解,如果熵比較大,即對該信息進行編碼的最小平均編碼長度較長,意味著該信息具有較多可能的狀態(tài),即有著較大的信息量/混亂程度/不確定性。從某種角度上看,熵描述了一個概率分布的不確定性。總之,熵就是信息量的期望。
?
KL散度
用來衡量也是兩個隨機分布之間距離的度量
另外需要注意的是
最大散度?
KL散度是從整體上衡量兩個分布的距離,最大散度是兩個分布比值的最大值,從兩個分布比值的最大值角度衡量了兩個分布的差異
差分隱私
定義
對于任意兩個相鄰數(shù)據(jù)集D,D',如果有一個隨機化算法M 滿足以下條件,則可以認(rèn)為該算法滿足差分隱私。
其中,默認(rèn)
可以簡單理解上述定義:在兩個相鄰數(shù)據(jù)集上,算法獲得同一個集合中輸出結(jié)果的概率相差不大。其中相差不大的定義則通過隱私預(yù)算參數(shù)調(diào)節(jié),隱私預(yù)算越小,對兩個數(shù)據(jù)集輸出結(jié)果的限制就越小,保護隱私的程度就越強。
差分隱私的公式可以轉(zhuǎn)化為
上面描述的是嚴(yán)格的差分隱私的定義,為了算法的實用性,Dwork后面引入了松弛的差分隱私,加入一個小常數(shù)(稱作失敗概率)。允許普通的 ? -DP 以概率 δ (最好小于 1/|d| )被打破的可能性。
定義的由來
差分隱私的目的是使經(jīng)差分隱私算法處理過后的兩個相鄰數(shù)據(jù)集的分布盡可能接近,我們可以用最大散度衡量兩個分布的差異。
常用的隨機化機制有:
-
拉普拉斯機制(Laplace mechanism)
-
指數(shù)機制(Exponential mechanism)
-
高斯機制(Gaussian mechanism)
敏感度
對于相鄰數(shù)據(jù)集D,D′,對于一個隨機化函數(shù)M:M的敏感度為接收所有可能的輸入后,得到輸出的最大變化值:
其中,‖?‖表示向量的范數(shù)。L1敏感度和L2敏感度分別適用于L1范數(shù)和L2范數(shù)。
上述的是局部敏感度,全局敏感度就是最大的局部敏感度。
聯(lián)邦學(xué)習(xí)與差分隱私
高斯噪聲機制
逼近確定性實值函數(shù)的一種常見范例:f:d→R 的一個常見范例是通過加性噪聲對函數(shù) f 的靈敏度進行校準(zhǔn)達到 sensitivity Sf ,其靈敏度定義為 d 和 d′ 為相鄰輸入的絕對距離 |f(d)?f(d′)| 的最大值。例如,高斯噪聲機制就是向數(shù)據(jù)中加入滿足均值為0,標(biāo)準(zhǔn)差為σ的高斯噪聲。其中σ的選擇是比較關(guān)鍵的,通常:
與此同時要求
敏感度為:
基于差分隱私的聯(lián)邦學(xué)習(xí)隱私保護方法
目的
有研究表明,聯(lián)邦學(xué)習(xí)中惡意參與方或服務(wù)器可以通過客戶端本地模型更新中推測出客戶端本地數(shù)據(jù)的屬性以及時候存在某條數(shù)據(jù)等隱私信息(屬性推理攻擊,成員推理攻擊,模型反演攻擊等等)。為了保護客戶端數(shù)據(jù)的隱私,可以通過差分隱私方法對本地模型參數(shù)進行模糊化處理,使惡意參與方或者中心服務(wù)器無法推理出用戶的隱私且能完成模型訓(xùn)練的功能。
算法
為什么裁剪
敏感度是差分隱私算法非常重要的參數(shù),而且通過上面對高斯機制的講解,我們也發(fā)現(xiàn)敏感度是生成對應(yīng)噪聲的重要參數(shù)。為了確定全局敏感度,我們必須對模型參數(shù)進行裁剪,推導(dǎo)過程如下:
σ計算
如果對于σ的計算完全按照上述高斯噪聲機制的計算法方法,則對于深度學(xué)習(xí)來說,相當(dāng)于每個batch滿足
級別的差分隱私,而對于整個數(shù)據(jù)集來說將滿足
也就是更嚴(yán)格的差分隱私條件,顯然這是不合理的。論文《Deep Learning with Differential Privacy》的解決方案是將σ寫成如下形式
聯(lián)邦學(xué)習(xí)方法對其進行簡單的改動即可
參考文獻
差分隱私(Differential Privacy)定義及其理解 - MaplesWCT - 博客園
交叉熵、相對熵(KL散度)、JS散度和Wasserstein距離(推土機距離) - 知乎
Abadi M, Chu A, Goodfellow I, et al. Deep learning with differential privacy[C]//Proceedings of the 2016 ACM SIGSAC conference on computer and communications security. 2016: 308-318.文章來源:http://www.zghlxwxcb.cn/news/detail-797695.html
Wei K, Li J, Ding M, et al. Federated learning with differential privacy: Algorithms and performance analysis[J]. IEEE Transactions on Information Forensics and Security, 2020, 15: 3454-3469.文章來源地址http://www.zghlxwxcb.cn/news/detail-797695.html
到了這里,關(guān)于隱私保護聯(lián)邦學(xué)習(xí)之差分隱私原理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!