每日一詩(shī):
題竹(十三歲應(yīng)試作于楚王孫園亭)
——明*張居正
綠遍瀟湘外,疏林玉露寒。
鳳毛叢勁節(jié),只上盡頭竿。
近期在閱讀聯(lián)邦學(xué)習(xí)領(lǐng)域相關(guān)文獻(xiàn),簡(jiǎn)單介紹如下文。本文僅供學(xué)習(xí),無其它用途。如有錯(cuò)誤,敬請(qǐng)批評(píng)指正!
一、聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L):
舉目四望皆”聯(lián)邦“,“信息孤島”盡涼涼
1. 通俗理解:
傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要用戶將源數(shù)據(jù)上傳 到高算力的云服務(wù)器上集中訓(xùn)練,這種方式導(dǎo)致 了數(shù)據(jù)流向的不可控和敏感數(shù)據(jù)泄露問題,聯(lián)邦學(xué)習(xí)聯(lián)邦學(xué)習(xí)能夠在多方數(shù)據(jù)源聚合的場(chǎng)景下協(xié)同訓(xùn)練全局最優(yōu)模型,將機(jī)器學(xué)習(xí)的數(shù)據(jù)存儲(chǔ)和模型訓(xùn)練階段轉(zhuǎn)移至本地用戶,僅與中心服務(wù)器交互模型更新的方式有效保障了用戶的隱私安全
2. 機(jī)器學(xué)習(xí)技術(shù)的發(fā)展過程中面臨兩大挑戰(zhàn):
一是數(shù)據(jù)安全難以得到保障,隱私數(shù)據(jù)泄 露問題亟待解決;
二是網(wǎng)絡(luò)安全隔離和行業(yè)隱私,不同行業(yè)、部門之間存在數(shù)據(jù)壁壘,數(shù)據(jù)形成“孤島”無法安全共享
3. 聯(lián)邦學(xué)習(xí)特點(diǎn):
1) 參與聯(lián)邦學(xué)習(xí)的原始數(shù)據(jù)都保留在本地客戶端, 與中心服務(wù)器交互的只是模型更新信息
2) 聯(lián)邦 學(xué)習(xí)的參與方聯(lián)合訓(xùn)練出的模型 w 將被各方共 享
3) 聯(lián)邦學(xué)習(xí)最終的模型精度與集中式機(jī)器學(xué) 習(xí)相似
4)聯(lián)邦學(xué)習(xí)參與方的訓(xùn)練數(shù)據(jù)質(zhì)量越高,全局模型精度越高
4. 聯(lián)邦學(xué)習(xí)流程:
機(jī)器學(xué)習(xí)得目標(biāo)函數(shù)優(yōu)化通常是讓損失函數(shù)達(dá)到最小值:
5. 聯(lián)邦學(xué)習(xí)的分類
一個(gè) 完整的訓(xùn)練數(shù)據(jù)集 D 應(yīng)由(I,Y,X)構(gòu)成,假設(shè) Dm代表客戶端 m 持有的數(shù)據(jù),I 表示樣本 ID,Y 表示數(shù)據(jù)集的標(biāo) 簽信息,X 表示數(shù)據(jù)集的特征信息.
橫向聯(lián)邦學(xué)習(xí) | 縱向聯(lián)邦學(xué)習(xí) | 聯(lián)邦遷移學(xué)習(xí) | |
---|---|---|---|
特點(diǎn) | 數(shù)據(jù)集特征 X 和標(biāo)簽信息Y相同,但樣本ID不同 | 各數(shù)據(jù)集特征 X 和標(biāo)簽信息Y不同,但樣本ID信息相同 | 數(shù)據(jù)集特征 X、標(biāo) 簽信息 Y 和樣本 ID 信息都不同 |
舉例說明 | 在用戶輸入法數(shù)據(jù)上訓(xùn)練的下一詞預(yù)測(cè)模型。不同的手機(jī)用戶具 有相同的數(shù)據(jù)特征,數(shù)百萬個(gè)安卓手機(jī)在云服務(wù) 器的協(xié)調(diào)下訓(xùn)練共享的全局模型,其本質(zhì)是將多 方對(duì)不同目標(biāo)的相同特征描述進(jìn)行訓(xùn)練提取。 | 同一地區(qū)的銀行和電商平臺(tái): 銀行擁有當(dāng)?shù)赜脩舻氖罩в涗?x1,電商平臺(tái)擁有 用戶的消費(fèi)記錄和瀏覽記錄 x2,雙方想通過數(shù)據(jù) 聯(lián)合對(duì)客戶信用 Y 進(jìn)行評(píng)級(jí),從而提供更個(gè)性化 的服務(wù),其本質(zhì)是將多方對(duì)相同目標(biāo)的不同特征 描述進(jìn)行訓(xùn)練提取。 | 中國(guó)的電商平臺(tái)與其他國(guó)家銀行之間的數(shù)據(jù)遷移,由于跨部門跨國(guó)的數(shù)據(jù)交流。 |
X、Y看作數(shù)據(jù)集,ID看作產(chǎn)生數(shù)據(jù)集的對(duì)象 | 數(shù)據(jù)集基本相同(詞組習(xí)慣),但是產(chǎn)生數(shù)據(jù)集的對(duì)象(不同安卓設(shè)備)不同 | 數(shù)據(jù)集不同(銀行、電商平臺(tái)業(yè)務(wù)不同 所建立的數(shù)據(jù)庫(kù)不同),但是產(chǎn)生數(shù)據(jù)集合的對(duì)象(顧客)基本相同(同一地區(qū) 可認(rèn)為兩大平臺(tái)服務(wù)的對(duì)象群體基本相同) | 數(shù)據(jù)集不同(兩平臺(tái)數(shù)據(jù)庫(kù)差異),服務(wù)對(duì)象不同(不同國(guó)家) |
二、challenges and countermeasure:
1. 通信效率短板
1)challenges:
傳統(tǒng)的分布式框架算法在處理非獨(dú)立同分布數(shù)據(jù)(IID)時(shí)會(huì)產(chǎn)生訓(xùn)練過程難以收斂、通信輪數(shù)多的問題
動(dòng)輒萬計(jì)的客戶端很容易對(duì)通信網(wǎng)絡(luò)造成巨大的帶寬負(fù)擔(dān)相鄰的模型更新中可
能包含許多重復(fù)更新或者與全局模型不相關(guān)的更新
2)對(duì)策:
算法優(yōu)化:開發(fā)適合處理 Non-IID 和非 平衡分布數(shù)據(jù)的模型訓(xùn)練算法,減少用于傳輸?shù)哪P蛿?shù)據(jù)大小,加快模型訓(xùn)練的收斂速度。
壓縮數(shù)據(jù)包:壓縮能夠有效降低通信數(shù)據(jù)大 小,但對(duì)數(shù)據(jù)的壓縮會(huì)導(dǎo)致部分信息的丟失, 此類方法需要在模型精度和通信效率之間尋找最佳的平衡。
分散訓(xùn)練:將聯(lián)邦學(xué)習(xí)框架分層分級(jí) 星形拓?fù)涓某煞稚⑼負(fù)洌?降低中心服務(wù)器的通信負(fù)擔(dān)
2. 隱私安全隱患
1)challenges
理想情況下聯(lián)邦學(xué)習(xí)源數(shù)據(jù)不出本地僅僅交換模型梯度信息,以此保護(hù)本地敏感數(shù)據(jù)
真實(shí)情況下模型反演攻擊、 成員推理攻擊、模型推理攻擊層出不窮,參與訓(xùn)練的客戶端動(dòng)機(jī)難以判斷,中心服務(wù)器的可信程度不確定攻擊者可以通過客戶端上傳的梯度信息間接推出標(biāo)簽信息和數(shù)據(jù)集的成員信息
3種主要威脅:
惡意客戶端修改模型更新,破壞全局模型聚合;
惡意分析者通過對(duì)模型更新信息的分析推測(cè)源數(shù) 據(jù)隱私信息;
惡意服務(wù)器企圖獲得客戶端的源數(shù)據(jù)
2) 對(duì)策:
差分隱私(DP,differential privacy) 差分隱私算法的噪聲機(jī)制分為指數(shù)噪聲、Laplace 噪聲和高斯噪聲,其中,指數(shù)噪聲主要用于 處理 離散數(shù)據(jù)集,Laplace 噪聲和高斯噪聲主要用于處 理連續(xù)數(shù)據(jù)集。
安全多方計(jì)算(MPC,secure multi-party computation)
同態(tài)加密(HE,homomorphic encryption)可以解決上述問題
3. 激勵(lì)機(jī)制設(shè)置/客戶端信譽(yù)等級(jí)劃分
區(qū)塊鏈?zhǔn)潜忍貛诺牡讓蛹夹g(shù), 它作為一種安全可靠、不可篡改和支持查詢驗(yàn)證的分布式分類賬,被應(yīng)用于解決各類數(shù)據(jù)安全存儲(chǔ)和信任問題
聯(lián)邦學(xué)習(xí)與區(qū)塊鏈的結(jié)合使系統(tǒng)成為一個(gè)完善的閉環(huán)學(xué)習(xí)機(jī)制。一方面,聯(lián)邦學(xué)習(xí)技術(shù)能夠?yàn)榫哂须[私數(shù)據(jù)的參與方提供跨域安全共享方案;另一方面,區(qū)塊鏈技術(shù)作為核心數(shù)據(jù)庫(kù)為參與方提供了安全存儲(chǔ)、信任管理、細(xì)粒度區(qū)分和激勵(lì)回報(bào)等應(yīng)用需求,促使擁有數(shù)據(jù)的用戶積極參與到數(shù)據(jù)聯(lián)邦中。
三、研究熱點(diǎn):
-
系統(tǒng)異構(gòu):
參與訓(xùn)練的客戶端之間硬件配置、網(wǎng)絡(luò)帶寬、電池容量不同
終端設(shè)備的計(jì)算能力、通信速度 和存儲(chǔ)能力各不相同
客戶端并不一定可靠, 隨時(shí)可能因?yàn)榫W(wǎng)絡(luò)故障、算力限制等問題退出現(xiàn)有訓(xùn)練
適用于系統(tǒng)異構(gòu)的聯(lián)邦 學(xué)習(xí)算法必須滿足 3 點(diǎn)要求:
客戶端的低參與率;
兼容不同的硬件結(jié)構(gòu);
能夠容忍訓(xùn)練設(shè)備的中途退出。
-
統(tǒng)計(jì)異構(gòu):
不同的終端設(shè)備通常使用各式各樣的方式生成、存儲(chǔ)和傳輸數(shù)據(jù),各設(shè)備之間數(shù)據(jù)的特征和體量可能有很大的不同,呈現(xiàn)Non-IID分布和非平衡分布。
-
無線通信:
無線信道的帶寬容量有限,因此在發(fā)送信息之前,需要對(duì)模型更新進(jìn)行量化壓縮,在這種模式下, 一個(gè)重要的考慮因素是存在量化誤差時(shí)模型更新的魯棒性。無線通信中復(fù)雜的噪聲和干擾也加劇信道瓶頸。
四、前景展望:
-
邊緣計(jì)算+聯(lián)邦學(xué)習(xí):
聯(lián)邦學(xué)習(xí)作為 邊緣計(jì)算的操作系統(tǒng),提供了一種各方協(xié)作與共 享的協(xié)議規(guī)范,它能夠讓邊緣設(shè)備在不向云端設(shè) 備發(fā)送源數(shù)據(jù)的情況下,合作訓(xùn)練出一個(gè)最優(yōu)的 全局機(jī)器學(xué)習(xí)模型
-
聯(lián)邦學(xué)習(xí)+智慧醫(yī)療:
由于醫(yī)療機(jī)構(gòu)的數(shù)據(jù)對(duì)于隱私和 安全的敏感性,醫(yī)療數(shù)據(jù)中心很難收集到足夠數(shù)量的、特征豐富的、可以全面描述患者癥狀的數(shù) 據(jù),而性能良好的機(jī)器學(xué)習(xí)模型往往需要來自多 個(gè)數(shù)據(jù)源,包括醫(yī)療報(bào)告、病例特征、生理指標(biāo)、基因序列等。
聯(lián)邦遷移學(xué)習(xí)是解決這類問題的有 效方法,無須交換各醫(yī)療機(jī)構(gòu)的私有數(shù)據(jù),協(xié)同 所有的訓(xùn)練參與方訓(xùn)練一個(gè)共享模型,同時(shí)遷移 學(xué)習(xí)技術(shù)可以擴(kuò)展訓(xùn)練數(shù)據(jù)的樣本空間和特征空 間,有效降低各醫(yī)療機(jī)構(gòu)之間樣本分布的差異性。打破“信息孤島”
-
聯(lián)邦學(xué)習(xí)+金融:
對(duì)客戶“肖像”特征的描 述通常包括資質(zhì)信息、購(gòu)買能力、購(gòu)買偏好及商 品特征等,而這些信息分別分布在銀行、電子商 務(wù)平臺(tái)和用戶的私人社交網(wǎng)絡(luò)中。出于隱私安全 的考慮,將三方數(shù)據(jù)聚合并不現(xiàn)實(shí),而聯(lián)邦學(xué)習(xí) 為構(gòu)建跨企業(yè)、跨數(shù)據(jù)平臺(tái)以及跨領(lǐng)域的大數(shù)據(jù) 和 AI 系統(tǒng)提供了良好的技術(shù)支持。
-
聯(lián)邦學(xué)習(xí)+智慧城市:
在城市的不同信息部門中,如后勤、應(yīng)急、 維穩(wěn)、安保等,會(huì)產(chǎn)生大量的異構(gòu)數(shù)據(jù),形成多 個(gè)數(shù)據(jù)孤島,無法整合利用。聯(lián)邦學(xué)習(xí)的異構(gòu)數(shù) 據(jù)處理能力能夠幫助人們創(chuàng)造迅速響應(yīng)市民需求 的智慧城市,解決數(shù)據(jù)“孤島”問題,同時(shí)基于 智慧城市構(gòu)建的機(jī)器學(xué)習(xí)模型為企業(yè)提供個(gè)性化 服務(wù)文章來源:http://www.zghlxwxcb.cn/news/detail-462046.html
Reference:
周傳鑫, 孫奕, 汪德剛,等. 聯(lián)邦學(xué)習(xí)研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào).
Zhao, Yue, et al. “Federated learning with non-iid data.” arXiv preprint arXiv:1806.00582 (2018).
Sattler, Felix, et al. “Robust and communication-efficient federated learning from non-iid data.” IEEE transactions on neural networks and learning systems 31.9 (2019): 3400-3413.文章來源地址http://www.zghlxwxcb.cn/news/detail-462046.html
到了這里,關(guān)于聯(lián)邦學(xué)習(xí)((Federated Learning,F(xiàn)L)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!