【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

這篇具有很好參考價(jià)值的文章主要介紹了【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)
先上一幅Swarm Learning 的架構(gòu)圖鎮(zhèn)樓

引文114 An Incentive Compatible Reputation Mechanism（worker直接博弈）

我們想干什么？

我們希望實(shí)現(xiàn)激勵(lì)的可協(xié)調(diào)，也就是讓每個(gè)節(jié)點(diǎn)可以可信地分享reputation的信息
我們引進(jìn)可轉(zhuǎn)移支付方案，讓節(jié)點(diǎn)可信地共享reputation信息
我們還通過(guò)密碼學(xué)的方法整合reputation信息

目前的一些問(wèn)題

1.如果節(jié)點(diǎn)報(bào)告reputation信息，別人就會(huì)掌握有利的信息，從而對(duì)自己不利
2.如果反饋真實(shí)的正反饋reputation，節(jié)點(diǎn)會(huì)由于其余節(jié)點(diǎn)的average降低自己的reputation，同時(shí)也造成了對(duì)稀缺資源的更多需求（我的理解是：reputation比較高的話，別人會(huì)認(rèn)為這個(gè)節(jié)點(diǎn)可靠，從而向其進(jìn)行交易需求等）
3.如果反饋虛假的負(fù)反饋，節(jié)點(diǎn)可以增加自己的reputation，同時(shí)減少對(duì)稀有資源的需求，所以大家傾向提供虛假信息

我們的目標(biāo)

我們希望設(shè)計(jì)一個(gè)博弈論模型來(lái)讓一個(gè)理性的節(jié)點(diǎn)愿意去分享真實(shí)的reputation信息

模型設(shè)計(jì)

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

祭上一個(gè)囚徒困境的圖

我們希望讓每一個(gè)節(jié)點(diǎn)覺(jué)得報(bào)告真實(shí)的信息是有利益的

在我們的機(jī)制中，我們引入一個(gè)R-agents，負(fù)責(zé)購(gòu)買和銷售reputation 信息
在博弈游戲中，兩個(gè)節(jié)點(diǎn)要么選擇合作要么選擇欺騙
游戲雙方開(kāi)始游戲前可以協(xié)商合同，但合同不具備強(qiáng)制性

一個(gè)節(jié)點(diǎn)的行為預(yù)測(cè)怎么量化？

1.先驗(yàn)類型（固定的概率） =》 innate
2.這個(gè)節(jié)點(diǎn)的前k次動(dòng)作 =》 mood

DEF 1

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)
這里的意思是在時(shí)間t某個(gè)節(jié)點(diǎn)何合作的可能性公式

關(guān)于R-agent

每個(gè)節(jié)點(diǎn)可以從R-agent處以F的價(jià)格買reputation信息，也可以以F‘的價(jià)格賣reputation信息
節(jié)點(diǎn)只能夠賣出一些它們買入的其他節(jié)點(diǎn)的reputation信息

當(dāng)兩個(gè)節(jié)點(diǎn)要開(kāi)始游戲前，它們需要支付給R-agent錢來(lái)詢問(wèn)對(duì)方的reputation
注意，買reputation的錢和游戲中獲得的錢不通用
如果一個(gè)node用完了它買reputation的錢，就不能再買

完整的流程

1.兩個(gè)節(jié)點(diǎn)隨機(jī)組合
2.通過(guò)R-agent詢問(wèn)reputation
3.決定是否玩游戲
4.若同意玩，進(jìn)入?yún)f(xié)商合約階段
5.若同意合約，開(kāi)始玩游戲
6.游戲中，可以記錄對(duì)方的信用，從而生成報(bào)告給R-agent

為什么說(shuō)是激勵(lì)可協(xié)調(diào)的呢？

因?yàn)槲覀兊闹Ц逗瘮?shù)可以誘使節(jié)點(diǎn)公布誠(chéng)實(shí)的reputation信息
由于我們不能保證從R-agent那里獲取的reputation的正確性，我們的支付函數(shù)依賴于未來(lái)的情況

payment function的定義

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)
小s是A對(duì)B的report
大S是后續(xù)其他節(jié)點(diǎn)的B的reports
他可以證明，如果A說(shuō)真話（真實(shí)的s）可以使得它的收益最大化

TH1

若節(jié)點(diǎn)的gamma函數(shù)不依賴于之前的actions，那么沒(méi)有支付函數(shù)可以有效誘使誠(chéng)實(shí)的行為
【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

由于A的誠(chéng)實(shí)概率（reputation）不受之前行為的影響，所以是恒定的
所以它的大S（未來(lái)的reports）可以認(rèn)為和目前是完全一致的S = Sc = Sd

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)
因此說(shuō)真話肯定不可能總是有好處
這個(gè)要看pi(C,S) and pi(D,S)的大小決定~

這個(gè)結(jié)果令人震驚，因?yàn)楹芏鄏eputation系統(tǒng)都是只關(guān)注先驗(yàn)類型對(duì)行為的影響

我們的一個(gè)想法

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

R-agent只有當(dāng)下一次關(guān)于B的report：S和之前A的report：s相同的時(shí)候，才會(huì)支付給A報(bào)酬F’

TH2

如果滿足Def1和Eq2，那么報(bào)告真實(shí)的reputation信息就是一個(gè)納什均衡
which means，如果下一個(gè)節(jié)點(diǎn)講真話， ‘我’也最好講真話

概率證明：B在連續(xù)兩次動(dòng)作中采用相同的概率大于等于0.5
這個(gè)Eq2只能保證系統(tǒng)前期交互的安全的

還有一些問(wèn)題：Eq2中的支付函數(shù)需要引入一些節(jié)點(diǎn)行為參數(shù)才可以保證長(zhǎng)期穩(wěn)定~~

Th3

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

兩個(gè)概率指的是假設(shè)連續(xù)在t時(shí)間干了X行為的條件下t+1時(shí)間還是保持X行為的概率是大于5成的話
Eq2總會(huì)誘使它們交出真實(shí)的reputation報(bào)告

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

條件：A觀察到B是正常的合作
如果它誠(chéng)實(shí)報(bào)告1的收益期望就是E[pi(1,S)]
然后根據(jù)B下一次可能的行為展開(kāi)條件概率求和就可以得到一頭一尾

注意：我們假設(shè)下一個(gè)匯報(bào)B者是誠(chéng)實(shí)的

小結(jié)：讓節(jié)點(diǎn)都傾向說(shuō)真話

我們這里采用兩階段假設(shè)和證明，表明了在模型的前期和后期都會(huì)讓各個(gè)節(jié)點(diǎn)傾向于說(shuō)真話

引文114的一些問(wèn)題

R-agent變成blockchain node可行嗎？（負(fù)責(zé)買賣？不能以明文記錄reputation）

分開(kāi)game 的money 和reputation的money有什么好處？

引文74 結(jié)合reputation和契約理論的中心化激勵(lì)（reputation由task publisher整合）

主要工作

1.worker selection based on reputation可防止不可靠的模型更新
2.使用多權(quán)重主觀邏輯模型計(jì)算reputation然后用聯(lián)盟鏈存reputation
3.基于契約理論的激勵(lì)機(jī)制促進(jìn)高reputation的worker擁有高quality數(shù)據(jù)來(lái)參與訓(xùn)練防止攻擊
4.實(shí)驗(yàn)表明這個(gè)方案很好很精確。。。

基于聯(lián)盟鏈的可信聯(lián)邦學(xué)習(xí)模型圖

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)
worker：本地?cái)?shù)據(jù)集、本地模型訓(xùn)練、生成本地模型、計(jì)算資源Fn
task publisher：分配task、計(jì)算每個(gè)worker提供的模型質(zhì)量、生成reputation、reputation上鏈
reputation是評(píng)估worker可靠性的重要因素：綜合direct reputation和在鏈上記錄的最近幾次的indirect reputation計(jì)算

step1: task publishers發(fā)布FL的任務(wù)和合約條款，有相關(guān)的數(shù)據(jù)類型、大小和精確度、時(shí)間和CPUT的要求。如果workers覺(jué)得可以滿足就加入任務(wù)，然后給予回應(yīng)給task publisher

step2：基于direct的reputation和存在鏈上的indirect的reputation得到綜合的reputation；reputation的計(jì)算是某種加權(quán)平均（交互的效果、交互的新鮮度 =》 direct）（跟其他recommender的worker相似度 =》 indirect）

step3：選出reputation大于某個(gè)閾值的作為worker，worker根據(jù)他們的條件選擇一個(gè)最優(yōu)的合同項(xiàng)進(jìn)行簽署

step4：開(kāi)始進(jìn)行FL，然后評(píng)估各個(gè)worker更新的本地模型

通過(guò)兩個(gè)攻擊檢測(cè)算法評(píng)估模型

1.Reject on Negative Influence(RONI)投毒檢測(cè)方案（IID)，通過(guò)比較包含和剔除某個(gè)本地模型，如果加入這個(gè)本地模型后，總體表現(xiàn)下降超過(guò)一定閾值，則拒絕這個(gè)本地模型

2.FoolsGold方案(non IID)通過(guò)某個(gè)本地模型的梯度更新差異來(lái)識(shí)別不可靠的worker，由于non-IID 的梯度變化遵循一定的分布函數(shù)，如果worker重復(fù)上傳相似度高的梯度就會(huì)被檢測(cè)出來(lái)

基于上述兩個(gè)方案，task publishers可以移除不可靠節(jié)點(diǎn)，然后用聯(lián)邦平均更新模型
訓(xùn)練完成后，每個(gè)可靠的worker根據(jù)之前簽訂合約中的內(nèi)容，獲取與資源貢獻(xiàn)和模型訓(xùn)練行為對(duì)等的獎(jiǎng)勵(lì)

惡意節(jié)點(diǎn)的交互會(huì)被task publishers記錄下來(lái)

step5：更新聯(lián)盟鏈中的reputation，task publishers更新direct的reputation，這些reputation會(huì)被workers數(shù)字簽名從而不可抵賴（應(yīng)該是合約中簽訂的），然后這些reputation提供給以后的task publishers作為indirect參考

對(duì)可靠的FL的激勵(lì)機(jī)制

原則：鼓勵(lì)high-reputation high-quality data的worker加入模型訓(xùn)練

task publisher 發(fā)放 reward 的困難

1.task publisher 由于缺乏先驗(yàn)知識(shí)并不知道哪些worker希望加入到訓(xùn)練中
2.對(duì)于task publisher而言，worker的reputation和data quality是未知的
3.task publisher也不知道worker的可用計(jì)算資源和數(shù)據(jù)量

1、2、3 =》 task publisher在給worker激勵(lì)的時(shí)候會(huì)有太多的消耗
因此，本文設(shè)計(jì)了基于契約理論的激勵(lì)機(jī)制

A:worker在一次迭代中的CPU消耗
B:worker在一次迭代中的通信消耗
C:worker按照數(shù)據(jù)質(zhì)量進(jìn)行分級(jí)
D:task publisher對(duì)type-n worker一次迭代花費(fèi)時(shí)間的滿意度函數(shù)

因此，由于有了契約理論，惡意節(jié)點(diǎn)是不會(huì)簽署比他等級(jí)要高的合約的（否則拿不到獎(jiǎng)勵(lì)）
從而也可以激勵(lì)高質(zhì)量的節(jié)點(diǎn)加入FL中

引文74的一些問(wèn)題

reward min？max？sum？（worker應(yīng)該怎么選擇合同簽署，具體獎(jiǎng)勵(lì)如何分配？）

pre-set reward 放到 smart contract可行嗎？（pre-set reward指的是契約中約定的獎(jiǎng)勵(lì)）

合約里面包括digital signature？（讓reputation綁定具體的worker）

每個(gè)等級(jí)的合同的錢怎么設(shè)計(jì)？（不同數(shù)據(jù)質(zhì)量的獎(jiǎng)勵(lì)梯度如何劃分？）

一開(kāi)始的reputation不確定，worker selection都是基于一定的reputation基礎(chǔ)的（初始階段怎么判斷？）文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-411510.html

到了這里，關(guān)于【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

引文114 An Incentive Compatible Reputation Mechanism（worker直接博弈）

我們想干什么？

目前的一些問(wèn)題

我們的目標(biāo)

模型設(shè)計(jì)

一個(gè)節(jié)點(diǎn)的行為預(yù)測(cè)怎么量化？

DEF 1

關(guān)于R-agent

完整的流程

為什么說(shuō)是激勵(lì)可協(xié)調(diào)的呢？

payment function的定義

TH1

我們的一個(gè)想法

TH2

Th3

小結(jié)：讓節(jié)點(diǎn)都傾向說(shuō)真話

引文114的一些問(wèn)題

引文74 結(jié)合reputation和契約理論的中心化激勵(lì)（reputation由task publisher整合）

主要工作

基于聯(lián)盟鏈的可信聯(lián)邦學(xué)習(xí)模型圖

對(duì)可靠的FL的激勵(lì)機(jī)制

task publisher 發(fā)放 reward 的困難

引文74的一些問(wèn)題

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

【激勵(lì)機(jī)制】一種去中心化和中心化的reputation的博弈論自洽激勵(lì)

引文114 An Incentive Compatible Reputation Mechanism（worker直接博弈）

我們想干什么？

目前的一些問(wèn)題

我們的目標(biāo)

模型設(shè)計(jì)

一個(gè)節(jié)點(diǎn)的行為預(yù)測(cè)怎么量化？

DEF 1

關(guān)于R-agent

完整的流程

為什么說(shuō)是激勵(lì)可協(xié)調(diào)的呢？

payment function的定義

TH1

我們的一個(gè)想法

TH2

Th3

小結(jié)：讓節(jié)點(diǎn)都傾向說(shuō)真話

引文114的一些問(wèn)題

引文74 結(jié)合reputation和契約理論的中心化激勵(lì)（reputation由task publisher整合）

主要工作

基于聯(lián)盟鏈的可信聯(lián)邦學(xué)習(xí)模型圖

對(duì)可靠的FL的激勵(lì)機(jī)制

task publisher 發(fā)放 reward 的困難

引文74的一些問(wèn)題

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

微信掃一掃打賞

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)

二維碼1

二維碼2

我們想干什么？

一個(gè)節(jié)點(diǎn)的行為預(yù)測(cè)怎么量化？

支付寶掃一掃領(lǐng)取紅包，優(yōu)惠每天領(lǐng)