論文標題:Incentive Mechanisms for Federated Learning: From Economic and Game Theoretic Perspective
聯(lián)邦學(xué)習(xí)的激勵機制設(shè)計:概念定義和動機
在FL的場景中,參與者可能不情愿參與沒有補償?shù)挠?xùn)練因為這會導(dǎo)致它白白損失資源來訓(xùn)練模型以及承受隱私泄露的風(fēng)險。同時,激勵機制還可以減少信息不對稱(server和worker)造成的負面影響。一個優(yōu)秀的激勵機制可能有以下特征:
激勵可協(xié)調(diào)、可信:每個worker都可以獲得最優(yōu)的補償,只要他們誠實地工作;也就是說,他們作惡的話是不會提高收益的
個人的合理性:也就是說worker參與FL的收益是非負的
賬單平衡:對workers的總支付不會大于給定的預(yù)算
計算有效:在多項式時間內(nèi),激勵機制可以完成worker的選舉和獎勵的分配
公平性:當(dāng)預(yù)定義的公平方程(貢獻公平)達到最值的時候,激勵機制就可以達到公平。公平的激勵機制可以最優(yōu)地分配獎勵
關(guān)于FL中激勵機制的一些定義:
(p,c,r)
p:參與方,他們提供有用的訓(xùn)練資源
c:用來衡量每個worker的貢獻的一個方法
r:基于c的,對每個worker給與獎勵的方法
特別地,設(shè)計激勵機制的目的就是worker的最優(yōu)參與程度和最優(yōu)的獎勵來維系FL的可持續(xù)性
所以說,激勵機制最為關(guān)鍵的就是貢獻評估和獎勵分配
貢獻的評估
在FL中,如果能獲取更高的獎勵,自利的DO將會有更高的意愿加入FL;然而,這從另外一個角度來說,是對MO造成更大的財力消耗。因此,需要設(shè)計貢獻評估來平衡一下。文獻22展示了關(guān)于誠實DO的貢獻、惡意DO的行為以及面向攻擊的防御機制的分析;文獻23采用了注意力機制來評估縱向FL中的DO的梯度貢獻。這個方法,可以對每個DO進行實時貢獻的衡量,擁有對數(shù)據(jù)數(shù)量和質(zhì)量的高敏感度。文獻24提出了一種基于逐步貢獻計算的直覺貢獻評價方法。文獻25中,作者提出了一種基于強化學(xué)習(xí)的貢獻評價方法。特別地,文獻26提出了一種稱作“基于peer預(yù)測的成對相關(guān)協(xié)議”在沒有測試集的情況下評估FL中的用戶貢獻,它通過使用用戶上傳的**關(guān)于模型參數(shù)的統(tǒng)計相關(guān)性“來進行具體評估。
然而,22-24的方法都假設(shè)了一個前提,那就是有可信的中心server會誠實的計算每個DO的貢獻,這個假設(shè)會缺失透明性然后會阻礙實際中FL的成功。為了解決這個問題,基于區(qū)塊鏈的p2p支付系統(tǒng)(27-28)提出來支持通過共識協(xié)議并基于SV的利益分配來取代傳統(tǒng)的第三方。同時,為了阻止惡意行為,29的作者提出了一種基于框架的評分規(guī)則來促使DO可信地上傳他們地模型。
目前FL中貢獻評估的主流策略可以分為以下幾種:
- 基于貢獻評估的自我報告:這是最直白的方式,這個就是DO主動地向MO報告自己貢獻的資源。在這個場景下,有很多優(yōu)勢,例如計算資源的規(guī)模和數(shù)據(jù)規(guī)模(我認為是指DO自己統(tǒng)計會方便得多,但它本身仍有虛假報告的可能)
- 基于貢獻評估的Shapley Value:這是一種考慮邊緣的方法,它將DO的加入順序的影響納入考慮的范圍,從而公平地統(tǒng)計它們的邊緣影響。這個方法通常使用與”cooperatetive game” sv的定義如下:
這個式子表示的是在除去i的所有DO里面的平均邊緣貢獻,S代表的是在聯(lián)盟N中不同的合作模式,v(s)是子集s共同訓(xùn)練出來的模型的效用,最近33-36闡述了這種邊緣模型的提升 - 基于貢獻評估的influence和reputation:一個worker的influence定義為它對FL模型的損失函數(shù)的貢獻。通過模型或數(shù)據(jù)的更新,損失函數(shù)會得到提高。文獻38提出了一個新穎的概念,F(xiàn)ed-Influnce,它主要是用來量化每個個體client的,而不是模型參數(shù)的,同時它可以在凸和非凸函數(shù)上有不錯的表現(xiàn)。reputation機制主要是結(jié)合區(qū)塊鏈來選舉可靠的worker(39-42)。DO的reputation可以劃分成直接的reputation和推薦的reputation,然后利用主觀邏輯模型來計算。
獎勵的分配
在評估完DO的貢獻之后,MO應(yīng)該要對DO分發(fā)獎勵來留住和提高提供高質(zhì)量數(shù)據(jù)DO的數(shù)量文章來源:http://www.zghlxwxcb.cn/news/detail-805073.html
- Offered獎勵:這個方法考慮的是MO在DO結(jié)束訓(xùn)練之前就給予獎勵,這里面獎勵可以根據(jù)提供資源的質(zhì)量(44),或通過投票(45)來決定
- payoff sharing:這個方法考慮的是Mo在Do完成任務(wù)之后再基于獎勵。但是呢,這樣的延遲支付會降低worker的積極性,19-20文獻提出的payoff sharing可以動態(tài)分配既定的budget。這個方法的目標是解決一個value減少的regret移動的優(yōu)化問題,可以達到貢獻公平性、regert分布公平性,期望公平性等。
總結(jié)
在這一屆中,我們對FL的訓(xùn)練過程、基本架構(gòu)、優(yōu)勢進行介紹。此外,F(xiàn)L激勵機制的基礎(chǔ)也討論了。例如,概念定義和動機。下一屆我們展示一些基礎(chǔ)的經(jīng)濟學(xué)和博弈論模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-805073.html
到了這里,關(guān)于關(guān)于聯(lián)邦學(xué)習(xí)和激勵的相關(guān)概念(1)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!