先上一幅Swarm Learning 的架構(gòu)圖鎮(zhèn)樓
引文114 An Incentive Compatible Reputation Mechanism(worker直接博弈)
我們想干什么?
我們希望實(shí)現(xiàn)激勵(lì)的可協(xié)調(diào),也就是讓每個(gè)節(jié)點(diǎn)可以可信地分享reputation的信息
我們引進(jìn)可轉(zhuǎn)移支付方案,讓節(jié)點(diǎn)可信地共享reputation信息
我們還通過(guò)密碼學(xué)的方法整合reputation信息
目前的一些問(wèn)題
1.如果節(jié)點(diǎn)報(bào)告reputation信息,別人就會(huì)掌握有利的信息,從而對(duì)自己不利
2.如果反饋真實(shí)的正反饋reputation,節(jié)點(diǎn)會(huì)由于其余節(jié)點(diǎn)的average降低自己的reputation,同時(shí)也造成了對(duì)稀缺資源的更多需求(我的理解是:reputation比較高的話,別人會(huì)認(rèn)為這個(gè)節(jié)點(diǎn)可靠,從而向其進(jìn)行交易需求等)
3.如果反饋虛假的負(fù)反饋,節(jié)點(diǎn)可以增加自己的reputation,同時(shí)減少對(duì)稀有資源的需求,所以大家傾向提供虛假信息
我們的目標(biāo)
我們希望設(shè)計(jì)一個(gè)博弈論模型來(lái)讓一個(gè)理性的節(jié)點(diǎn)愿意去分享真實(shí)的reputation信息
模型設(shè)計(jì)
祭上一個(gè)囚徒困境的圖
我們希望讓每一個(gè)節(jié)點(diǎn)覺(jué)得報(bào)告真實(shí)的信息是有利益的
在我們的機(jī)制中,我們引入一個(gè)R-agents,負(fù)責(zé)購(gòu)買和銷售reputation 信息
在博弈游戲中,兩個(gè)節(jié)點(diǎn)要么選擇合作要么選擇欺騙
游戲雙方開(kāi)始游戲前可以協(xié)商合同,但合同不具備強(qiáng)制性
一個(gè)節(jié)點(diǎn)的行為預(yù)測(cè)怎么量化?
1.先驗(yàn)類型(固定的概率) =》 innate
2.這個(gè)節(jié)點(diǎn)的前k次動(dòng)作 =》 mood
DEF 1
這里的意思是在時(shí)間t某個(gè)節(jié)點(diǎn)何合作的可能性公式
關(guān)于R-agent
每個(gè)節(jié)點(diǎn)可以從R-agent處以F的價(jià)格買reputation信息,也可以以F‘的價(jià)格賣reputation信息
節(jié)點(diǎn)只能夠賣出一些它們買入的其他節(jié)點(diǎn)的reputation信息
當(dāng)兩個(gè)節(jié)點(diǎn)要開(kāi)始游戲前,它們需要支付給R-agent錢來(lái)詢問(wèn)對(duì)方的reputation
注意,買reputation的錢和游戲中獲得的錢不通用
如果一個(gè)node用完了它買reputation的錢,就不能再買
完整的流程
1.兩個(gè)節(jié)點(diǎn)隨機(jī)組合
2.通過(guò)R-agent詢問(wèn)reputation
3.決定是否玩游戲
4.若同意玩,進(jìn)入?yún)f(xié)商合約階段
5.若同意合約,開(kāi)始玩游戲
6.游戲中,可以記錄對(duì)方的信用,從而生成報(bào)告給R-agent
為什么說(shuō)是激勵(lì)可協(xié)調(diào)的呢?
因?yàn)槲覀兊闹Ц逗瘮?shù)可以誘使節(jié)點(diǎn)公布誠(chéng)實(shí)的reputation信息
由于我們不能保證從R-agent那里獲取的reputation的正確性,我們的支付函數(shù)依賴于未來(lái)的情況
payment function的定義
小s是A對(duì)B的report
大S是后續(xù)其他節(jié)點(diǎn)的B的reports
他可以證明,如果A說(shuō)真話(真實(shí)的s)可以使得它的收益最大化
TH1
若節(jié)點(diǎn)的gamma函數(shù)不依賴于之前的actions,那么沒(méi)有支付函數(shù)可以有效誘使誠(chéng)實(shí)的行為
由于A的誠(chéng)實(shí)概率(reputation)不受之前行為的影響,所以是恒定的
所以它的大S(未來(lái)的reports)可以認(rèn)為和目前是完全一致的S = Sc = Sd
因此說(shuō)真話肯定不可能總是有好處
這個(gè)要看pi(C,S) and pi(D,S)的大小決定~
這個(gè)結(jié)果令人震驚,因?yàn)楹芏鄏eputation系統(tǒng)都是只關(guān)注先驗(yàn)類型對(duì)行為的影響
我們的一個(gè)想法
R-agent只有當(dāng)下一次關(guān)于B的report:S和之前A的report:s相同的時(shí)候,才會(huì)支付給A報(bào)酬F’
TH2
如果滿足Def1和Eq2,那么報(bào)告真實(shí)的reputation信息就是一個(gè)納什均衡
which means, 如果下一個(gè)節(jié)點(diǎn)講真話, ‘我’也最好講真話
概率證明:B在連續(xù)兩次動(dòng)作中采用相同的概率大于等于0.5
這個(gè)Eq2只能保證系統(tǒng)前期交互的安全的
還有一些問(wèn)題:Eq2中的支付函數(shù)需要引入一些節(jié)點(diǎn)行為參數(shù)才可以保證長(zhǎng)期穩(wěn)定~~
Th3
兩個(gè)概率指的是假設(shè)連續(xù)在t時(shí)間干了X行為的條件下t+1時(shí)間還是保持X行為的概率是大于5成的話
Eq2總會(huì)誘使它們交出真實(shí)的reputation報(bào)告
條件:A觀察到B是正常的合作
如果它誠(chéng)實(shí)報(bào)告1的收益期望就是E[pi(1,S)]
然后根據(jù)B下一次可能的行為展開(kāi)條件概率求和就可以得到一頭一尾
注意:我們假設(shè)下一個(gè)匯報(bào)B者是誠(chéng)實(shí)的
小結(jié):讓節(jié)點(diǎn)都傾向說(shuō)真話
我們這里采用兩階段假設(shè)和證明,表明了在模型的前期和后期都會(huì)讓各個(gè)節(jié)點(diǎn)傾向于說(shuō)真話
引文114的一些問(wèn)題
R-agent變成blockchain node可行嗎?(負(fù)責(zé)買賣?不能以明文記錄reputation)
分開(kāi)game 的money 和reputation的money有什么好處?
引文74 結(jié)合reputation和契約理論的中心化激勵(lì)(reputation由task publisher整合)
主要工作
1.worker selection based on reputation可防止不可靠的模型更新
2.使用多權(quán)重主觀邏輯模型計(jì)算reputation然后用聯(lián)盟鏈存reputation
3.基于契約理論的激勵(lì)機(jī)制促進(jìn)高reputation的worker擁有高quality數(shù)據(jù)來(lái)參與訓(xùn)練防止攻擊
4.實(shí)驗(yàn)表明這個(gè)方案很好很精確。。。
基于聯(lián)盟鏈的可信聯(lián)邦學(xué)習(xí)模型圖
worker:本地?cái)?shù)據(jù)集、本地模型訓(xùn)練、生成本地模型、計(jì)算資源Fn
task publisher:分配task、計(jì)算每個(gè)worker提供的模型質(zhì)量、生成reputation、reputation上鏈
reputation是評(píng)估worker可靠性的重要因素:綜合direct reputation和在鏈上記錄的最近幾次的indirect reputation計(jì)算
step1: task publishers發(fā)布FL的任務(wù)和合約條款,有相關(guān)的數(shù)據(jù)類型、大小和精確度、時(shí)間和CPUT的要求。如果workers覺(jué)得可以滿足就加入任務(wù),然后給予回應(yīng)給task publisher
step2:基于direct的reputation和存在鏈上的indirect的reputation得到綜合的reputation;reputation的計(jì)算是某種加權(quán)平均(交互的效果、交互的新鮮度 =》 direct)(跟其他recommender的worker相似度 =》 indirect)
step3:選出reputation大于某個(gè)閾值的作為worker,worker根據(jù)他們的條件選擇一個(gè)最優(yōu)的合同項(xiàng)進(jìn)行簽署
step4:開(kāi)始進(jìn)行FL,然后評(píng)估各個(gè)worker更新的本地模型
通過(guò)兩個(gè)攻擊檢測(cè)算法評(píng)估模型
1.Reject on Negative Influence(RONI)投毒檢測(cè)方案(IID),通過(guò)比較包含和剔除某個(gè)本地模型,如果加入這個(gè)本地模型后,總體表現(xiàn)下降超過(guò)一定閾值,則拒絕這個(gè)本地模型
2.FoolsGold方案(non IID)通過(guò)某個(gè)本地模型的梯度更新差異來(lái)識(shí)別不可靠的worker,由于non-IID 的梯度變化遵循一定的分布函數(shù),如果worker重復(fù)上傳相似度高的梯度就會(huì)被檢測(cè)出來(lái)
基于上述兩個(gè)方案,task publishers可以移除不可靠節(jié)點(diǎn),然后用聯(lián)邦平均更新模型
訓(xùn)練完成后,每個(gè)可靠的worker根據(jù)之前簽訂合約中的內(nèi)容,獲取與資源貢獻(xiàn)和模型訓(xùn)練行為對(duì)等的獎(jiǎng)勵(lì)
惡意節(jié)點(diǎn)的交互會(huì)被task publishers記錄下來(lái)
step5:更新聯(lián)盟鏈中的reputation,task publishers更新direct的reputation,這些reputation會(huì)被workers數(shù)字簽名從而不可抵賴(應(yīng)該是合約中簽訂的),然后這些reputation提供給以后的task publishers作為indirect參考
對(duì)可靠的FL的激勵(lì)機(jī)制
原則:鼓勵(lì)high-reputation high-quality data的worker加入模型訓(xùn)練
task publisher 發(fā)放 reward 的困難
1.task publisher 由于缺乏先驗(yàn)知識(shí)并不知道哪些worker希望加入到訓(xùn)練中
2.對(duì)于task publisher而言,worker的reputation和data quality是未知的
3.task publisher也不知道worker的可用計(jì)算資源和數(shù)據(jù)量
1、2、3 =》 task publisher在給worker激勵(lì)的時(shí)候會(huì)有太多的消耗
因此,本文設(shè)計(jì)了基于契約理論的激勵(lì)機(jī)制
A:worker在一次迭代中的CPU消耗
B:worker在一次迭代中的通信消耗
C:worker按照數(shù)據(jù)質(zhì)量進(jìn)行分級(jí)
D:task publisher對(duì)type-n worker一次迭代花費(fèi)時(shí)間的滿意度函數(shù)
因此,由于有了契約理論,惡意節(jié)點(diǎn)是不會(huì)簽署比他等級(jí)要高的合約的(否則拿不到獎(jiǎng)勵(lì))
從而也可以激勵(lì)高質(zhì)量的節(jié)點(diǎn)加入FL中
引文74的一些問(wèn)題
reward min?max?sum?(worker應(yīng)該怎么選擇合同簽署,具體獎(jiǎng)勵(lì)如何分配?)
pre-set reward 放到 smart contract可行嗎?(pre-set reward指的是契約中約定的獎(jiǎng)勵(lì))
合約里面包括digital signature?(讓reputation綁定具體的worker)
每個(gè)等級(jí)的合同的錢怎么設(shè)計(jì)?(不同數(shù)據(jù)質(zhì)量的獎(jiǎng)勵(lì)梯度如何劃分?)文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-411510.html
一開(kāi)始的reputation不確定,worker selection都是基于一定的reputation基礎(chǔ)的(初始階段怎么判斷?)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-411510.html
到了這里,關(guān)于【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!