文章鏈接:PFL-MoE: Personalized Federated Learning Based on Mixture of Experts
發(fā)表會(huì)議:APWeb-WAIM 2021(CCF-C)
1.背景介紹
過(guò)去幾年,深度學(xué)習(xí)在AI應(yīng)用領(lǐng)域(CV、NLP、RS)中快速發(fā)展,這離不開海量數(shù)據(jù)集的支持。這些數(shù)據(jù)集通常是來(lái)自不同組織、設(shè)備或用戶的數(shù)據(jù)集合。
分布式機(jī)器學(xué)習(xí)(distributed machine learning, DML)則可以利用大量的工作節(jié)點(diǎn)協(xié)同進(jìn)行訓(xùn)練,目前已廣泛應(yīng)用于在大容量數(shù)據(jù)集上訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型。
然而在許多場(chǎng)景中,數(shù)據(jù)實(shí)際上分布在不同的客戶端(屬于不同的用戶),對(duì)隱私很敏感,意味著這些數(shù)據(jù)無(wú)法進(jìn)行共享。此外,隨著邊緣設(shè)備的存儲(chǔ)和計(jì)算能力的增長(zhǎng),直接在邊緣設(shè)備上執(zhí)行學(xué)習(xí)越來(lái)越受青睞。聯(lián)邦學(xué)習(xí)(Federated Learning ,FL)的出現(xiàn)很好的適應(yīng)了這種場(chǎng)景。
聯(lián)邦學(xué)習(xí)
第一個(gè)FL系統(tǒng)是由谷歌[1,2]開發(fā)的,該系統(tǒng)選擇了一個(gè)可用的智能手機(jī)樣本,基于邊緣服務(wù)器架構(gòu)更新語(yǔ)言預(yù)測(cè)模型,取得了很好的效果。
FL允許大量的客戶端(移動(dòng)電話和IoT設(shè)備)一起學(xué)習(xí)一個(gè)全局模型,而不需要數(shù)據(jù)共享。全局模型是通過(guò)迭代平均來(lái)自小客戶端的模型更新而創(chuàng)建的。每輪FL大致包括三個(gè)基本階段:
- FL服務(wù)器向每個(gè)參與客戶端提供全局模型;
- 客戶端根據(jù)其私有數(shù)據(jù)進(jìn)行訓(xùn)練,并將更新后的模型返回服務(wù)器;
- FL服務(wù)器通過(guò)聚合上傳的模型獲取最新的全局模型。當(dāng)訓(xùn)練收斂時(shí),最終的全局模型可以獲得與通過(guò)池化和共享數(shù)據(jù)訓(xùn)練的模型相似的性能。
聯(lián)邦學(xué)習(xí)目前仍然存在許多挑戰(zhàn),包括隱私問(wèn)題、通信成本、系統(tǒng)異質(zhì)性和統(tǒng)計(jì)異質(zhì)性:
- 隱私問(wèn)題:雖然聯(lián)邦學(xué)習(xí)只用模型參數(shù)進(jìn)行通信,但研究表明,監(jiān)視模型更新可以反向派生數(shù)據(jù),使得隱私保護(hù)成為一個(gè)重要問(wèn)題。關(guān)于隱私泄露的風(fēng)險(xiǎn)和保護(hù)方法已經(jīng)發(fā)表了大量的文獻(xiàn)。
- 通信成本:FL服務(wù)器協(xié)調(diào)參與者進(jìn)行全局模型的迭代訓(xùn)練,其中上傳和下載模型參數(shù)需要大量的通信開銷。
- 系統(tǒng)異質(zhì)性:在聯(lián)邦設(shè)置中,所有邊緣設(shè)備都可以是客戶機(jī)。在大多數(shù)情況下,這些設(shè)備的網(wǎng)絡(luò)資源較少,不能一直保持在線。
- 統(tǒng)計(jì)異質(zhì)性:每個(gè)客戶端的軟硬件資源和計(jì)算能力相差很大。
這些問(wèn)題需要聯(lián)合學(xué)習(xí)框架來(lái)有效地協(xié)調(diào)和分配客戶端。
non-IID
不同客戶擁有的數(shù)據(jù)在統(tǒng)計(jì)上具有多樣性。數(shù)據(jù)在客戶端之間的分布是自然的不一致性和non-IID
(IID,Independent and Identically Distributed),而且數(shù)據(jù)量也有很大的偏差。由于non-IID
數(shù)據(jù)會(huì)導(dǎo)致模型參數(shù)波動(dòng)較大,延遲甚至破壞收斂性,因此non-IID
特征對(duì)訓(xùn)練的全局模型的收斂性有很大的影響。
如果考慮隱私保護(hù)機(jī)制,例如差異隱私,情況會(huì)更糟。在相同的全局模型下,不同的客戶有很大的準(zhǔn)確率差異。在一些客戶中,全局模型甚至比本地訓(xùn)練的模型更糟糕。人們需要在模型的泛化性和異質(zhì)性之間做出一定取舍。
大量實(shí)驗(yàn)論證了non-IID
對(duì)于FL的訓(xùn)練影響,與此同時(shí)也有一批non-IID
數(shù)據(jù)構(gòu)造方法和non-IID
數(shù)據(jù)集不斷涌現(xiàn)。
-
Li等人首次證明了廣泛應(yīng)用于聯(lián)邦學(xué)習(xí)的FedAvg在
non-IID
數(shù)據(jù)分布下的收斂性。 - Zhao等人提出了一種共享部分全局?jǐn)?shù)據(jù)的方法,以緩解客戶端之間的數(shù)據(jù)差異,從而提高全局模型的收斂速度和性能。
- 在FedProx中,將近端項(xiàng)添加到每個(gè)客戶端的優(yōu)化目標(biāo)中,以限制其更新的漂移,使算法比FedAvg具有更好的魯棒性和收斂穩(wěn)定性。
-
個(gè)性化聯(lián)邦學(xué)習(xí)則是從客戶參與聯(lián)邦學(xué)習(xí)的動(dòng)機(jī)出發(fā),以提高
non-IID
數(shù)據(jù)分布客戶個(gè)性化模型的準(zhǔn)確性為目標(biāo),有效地提高了整體性能。
PFL
在個(gè)性化聯(lián)邦學(xué)習(xí)(personalized federated learning, PFL)中,每個(gè)客戶機(jī)學(xué)習(xí)適合自己的數(shù)據(jù)分發(fā)的個(gè)性化模型,這比單個(gè)全局模型更靈活。為了使聯(lián)邦全局模型適應(yīng)于單個(gè)客戶端,常用的技巧包括微調(diào)、多任務(wù)學(xué)習(xí)、知識(shí)蒸餾和混合模型。
這些PFL技巧可以有效地改善單個(gè)參與者的模型性能,可以做到幾乎所有的個(gè)性化模型都優(yōu)于相應(yīng)的本地訓(xùn)練模型。但個(gè)性化總是伴隨著泛化性的丟失,具體表現(xiàn)為個(gè)性化模型泛化誤差的增大。由于客戶端只有少量數(shù)據(jù),對(duì)應(yīng)的個(gè)性化模型可能會(huì)與本地?cái)?shù)據(jù)過(guò)度匹配。
為了解決這個(gè)問(wèn)題,有學(xué)者提出了FL+MoE相結(jié)合推理范式,具體來(lái)說(shuō)結(jié)合了兩種模型:在FL+MoE中,所有的客戶合作建立一個(gè)通用的全局模型,但是維護(hù)私有的、適應(yīng)領(lǐng)域的專家模型。在每個(gè)客戶端中,全局模型和私有模型分別被視為全局專家和領(lǐng)域?qū)<?,它們的輸出被Gating Net混合。兩種模型的預(yù)測(cè)比單一全局模型的預(yù)測(cè)準(zhǔn)確得多。
2.內(nèi)容摘要
受FL+MoE的啟發(fā),本文提出了一種個(gè)性化的聯(lián)邦學(xué)習(xí)方法PFL-MoE,該方法將個(gè)性化的模型視為本地專家,并通過(guò)MoE模型體系結(jié)構(gòu)將其與聯(lián)邦全局模型相結(jié)合。PFL- MoE是一種通用的方法,可以用現(xiàn)有的PFL算法來(lái)實(shí)例化。
特別地,本文提出了PFL- MF
算法,這是一個(gè)基于冷凍(freeze-based,FB)算法的實(shí)例。PFL-FB是一種將聯(lián)邦全局模型應(yīng)用于單個(gè)客戶端的有效算法。此外,為了提高門控網(wǎng)絡(luò)的決策能力,本文對(duì)PFL-MF
模型結(jié)構(gòu)進(jìn)行了改進(jìn),提出了一種擴(kuò)展算法PFL-MFE
。在各種non-IID
的實(shí)驗(yàn)設(shè)置中,所提算法的全局精度更高,而局部測(cè)試精度與PFL-FB相同甚至更好。
關(guān)鍵技術(shù)
A.PFL-MoE
PFL-MoE
可以分為三個(gè)階段:
- 聯(lián)邦學(xué)習(xí)(FL)階段:遵循傳統(tǒng)的FL框架,每個(gè)客戶參與FL訓(xùn)練。
參數(shù)定義:訓(xùn)練客戶數(shù)量 N;全局模型結(jié)構(gòu) M G M_{G} MG?;全局模型參數(shù) θ ( d 1 ) 維 \theta (d_{1})維 θ(d1?)維
其中 θ ∈ R d 1 \theta \in \mathbb{R}^{d_{1}} θ∈Rd1? and R d 1 ∈ R \mathbb{R}^{d_{1}} \in \mathbb{R} Rd1?∈R
FL的學(xué)習(xí)目標(biāo)為:
min ? θ ∈ R d 1 F ( θ ) = 1 N ∑ i = 1 N f i ( θ ) \min_{\theta \in \mathbb{R}^{d_{1}}} F(\theta) =\frac{1}{N} \sum_{i=1}^{N} f_{i}(\theta) θ∈Rd1?min?F(θ)=N1?i=1∑N?fi?(θ)
對(duì)于每一個(gè) f i f_{i} fi?,由于數(shù)據(jù)分布不同,假設(shè)第 i i i 個(gè)客戶的數(shù)據(jù)分布定義為 D i \mathcal{D} _{i} Di? 則:
f i ( θ ) = E ( x , y ) ~ D i [ L i ( M G ( θ ; x ) , y ) ] f_{i}(\theta)=\mathbb{E}_{(x,y)\sim\mathcal{D}_{i}} [L_{i}(M_{G}(\theta;x),y)] fi?(θ)=E(x,y)~Di??[Li?(MG?(θ;x),y)]
其中 L i ( ? ) L_{i}(·) Li?(?)是客戶 i i i 的損失函數(shù)
- 個(gè)性化( Personalization) 階段:每個(gè)客戶端從FL服務(wù)器下載最新的全局模型,然后進(jìn)行本地適應(yīng),以獲得基于全局模型和本地?cái)?shù)據(jù)的個(gè)性化模型。
本文選擇了基于微調(diào)的局部自適應(yīng)PFL算法
PFL- FT
來(lái)形式化地描述個(gè)性化階段的細(xì)節(jié)。具體目標(biāo)是為每個(gè)客戶端找到一個(gè)好的模型參數(shù),定義 F : R d 1 → R F:\mathbb{R}^{d_{1}} \rightarrow \mathbb{R} F:Rd1?→R為全局損耗:
min ? θ 1 , θ 2 , . . . . , θ N ∈ R d 1 F ( θ 1 , θ 2 , . . . . , θ N ) = 1 N ∑ i = 1 N f i ( θ i ) \min_{\theta_{1},\theta_{2},....,\theta_{N} \in \mathbb{R}^{d_{1}}} F(\theta_{1},\theta_{2},....,\theta_{N}) =\frac{1}{N} \sum_{i=1}^{N} f_{i}(\theta_{i}) θ1?,θ2?,....,θN?∈Rd1?min?F(θ1?,θ2?,....,θN?)=N1?i=1∑N?fi?(θi?)
f i ( θ i ) = E ( x , y ) ~ D i [ L i ( y ^ , y ) ] f_{i}(\theta_{i})=\mathbb{E}_{(x,y)\sim\mathcal{D}_{i}} [L_{i}(\hat{y} ,y)] fi?(θi?)=E(x,y)~Di??[Li?(y^?,y)]
y ^ = M G ( θ i ; x ) \hat{y}=M_{G}(\theta_{i};x) y^?=MG?(θi?;x)
其中 y ^ \hat{y} y^? 是對(duì)應(yīng)于x的輸出偽標(biāo)簽。在PFL-FT中, θ i \theta_{i} θi?的初值為全局模型參數(shù),由學(xué)習(xí)率較小的隨機(jī)梯度下降法(SGD)更新:
θ i = θ i ? α ? ▽ f i ( θ i ) \theta_{i}=\theta_{i}-\alpha·\bigtriangledown f_{i}(\theta_{i}) θi?=θi??α?▽fi?(θi?)
- 混合(Mixing)階段:通過(guò)前兩個(gè)階段,客戶得到兩個(gè)模型,一個(gè)是個(gè)性化模型,另一個(gè)是全局模型。在混合專家模型結(jié)構(gòu)的基礎(chǔ)上,對(duì)門控網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練,使模型結(jié)合在一起工作。
混合結(jié)果
y ~ = ∑ i = 1 n G ( x ) i ? M i ( x ) , w h e r e ∑ i = 1 n G ( x ) i = 1 \tilde{y} = {\textstyle \sum_{i=1}^{n}} G(x)_{i}·M_{i}(x),where {\textstyle \sum_{i=1}^{n}}G(x)_{i}=1 y~?=∑i=1n?G(x)i??Mi?(x),where∑i=1n?G(x)i?=1
定義Gating Net G G G 的參數(shù)為 w i w_{i} wi?( d 2 d_{2} d2?維),門損失函數(shù) p i p_{i} pi? :
p i ( w i ) = E ( x , y ) ~ D i [ L i ( y ~ , y ) ] p_{i}(w_{i})=\mathbb{E}_{(x,y)\sim\mathcal{D}_{i}} [L_{i}(\tilde{y} ,y)] pi?(wi?)=E(x,y)~Di??[Li?(y~?,y)]
其中 p i p_{i} pi? : R d 1 → R \mathbb{R}^{d_{1}}\rightarrow\mathbb{R} Rd1?→R, y ~ \tilde{y} y~?可以表示為:
g = s i g m o i d ( G ( w i ; x ) ) g=sigmoid(G(w_{i};x)) g=sigmoid(G(wi?;x))
y ~ = g ? M G ( θ ; x ) + ( 1 ? g ) ? M G ( θ i ; x ) \tilde{y}=g·M_{G}(\theta;x)+(1-g)·M_{G}(\theta_{i};x) y~?=g?MG?(θ;x)+(1?g)?MG?(θi?;x)
g表示專家模型的混合比例,g為全局的權(quán)重,而1 - g為本地專家的權(quán)重。門控網(wǎng)絡(luò)參數(shù)更新如下:
w i = w i ? β ? ▽ p i ( w i ) w_{i}=w_{i}-\beta·\bigtriangledown p_{i}(w_{i}) wi?=wi??β?▽pi?(wi?)
B.PFL-MF
PFL- FB
是一種基于凍結(jié)參數(shù)的局部適應(yīng)PFL算法,屬于PFL-DT
的變式,它凍結(jié)聯(lián)邦模型的基層,只微調(diào)最上層。根據(jù)PFL-MoE
的三個(gè)步驟,本文提出了利用PFL-FB
算法生成的本地專家的PFL-MF
算法。
在PFL- FB
中,全局模型結(jié)構(gòu)
M
G
M_{G}
MG? 分為特征提取器
M
E
M_{E}
ME? 和分類器
M
C
M_{C}
MC? 兩部分。定義
M
E
M_{E}
ME?和
M
C
M_{C}
MC?的參數(shù)分別為
θ
E
\theta_{E}
θE? 和
θ
C
\theta_{C}
θC?。在PFL-MF
中,
θ
\theta
θ 是全局模型參數(shù),對(duì)于客戶
i
i
i , (
θ
E
,
θ
C
i
\theta_{E},\theta_{C_{i}}
θE?,θCi??) 由
θ
\theta
θ 進(jìn)行初始化,其中
θ
E
\theta_{E}
θE? 由所有客戶共享,
θ
C
i
\theta_{C_{i}}
θCi?? 是是客戶
i
i
i 的個(gè)性化分類器參數(shù)。
θ
C
i
=
θ
C
i
?
α
?
▽
f
i
(
θ
E
,
θ
C
i
)
\theta_{C_{i}}=\theta_{C_{i}}-\alpha·\bigtriangledown f_{i}(\theta_{E},\theta_{C_{i}})
θCi??=θCi???α?▽fi?(θE?,θCi??)
f
i
(
θ
E
,
θ
C
i
)
=
E
(
x
,
y
)
~
D
i
[
L
i
(
y
^
,
y
)
]
f_{i}(\theta_{E},\theta_{C_{i}})=\mathbb{E}_{(x,y)\sim\mathcal{D}_{i}} [L_{i}(\hat{y} ,y)]
fi?(θE?,θCi??)=E(x,y)~Di??[Li?(y^?,y)]
其中
a
=
M
E
(
θ
E
,
x
)
a=M_{E}(\theta_{E},x)
a=ME?(θE?,x) and
y
^
=
M
C
(
θ
C
;
a
)
\hat{y}=M_{C}(\theta_{C};a)
y^?=MC?(θC?;a)
在PFL-MF算法的混合階段中,與上述不同的是,x對(duì)應(yīng)的混合偽標(biāo)號(hào)
y
~
\tilde{y}
y~? 記為:
y
~
=
g
?
M
C
(
θ
C
;
a
)
+
(
1
?
g
)
?
M
C
(
θ
C
i
;
a
)
\tilde{y}=g·M_{C}(\theta_{C};a)+(1-g)·M_{C}(\theta_{C_{i}};a)
y~?=g?MC?(θC?;a)+(1?g)?MC?(θCi??;a)
通過(guò)對(duì)Fashion-MNIST數(shù)據(jù)集的實(shí)驗(yàn),作者發(fā)現(xiàn)PFL-MF
能夠?qū)崿F(xiàn)良好的個(gè)性化,并保持良好的泛化能力。
C.PFL-MFE
由于簡(jiǎn)單線性網(wǎng)絡(luò)的限制,當(dāng)輸入的是比較復(fù)雜的高維數(shù)據(jù)時(shí),門控不能很好地工作。為了解決這個(gè)問(wèn)題,本文提出了利用特征作為門控輸入的PFL-MFE
算法。在卷積神經(jīng)網(wǎng)絡(luò)中,基礎(chǔ)層負(fù)責(zé)捕獲一般特征,而深層負(fù)責(zé)分類。直觀地說(shuō),與原始數(shù)據(jù)相比,這些特性是門控輸入的更好選擇。
PFL-MFE
算法修改了PFL-MF
算法的模型結(jié)構(gòu),改為以激活
a
a
a 作為門控輸入:
g
=
s
i
g
m
o
i
d
(
G
(
w
i
;
a
)
)
g=sigmoid(G(w_{i};a))
g=sigmoid(G(wi?;a))
實(shí)驗(yàn)結(jié)果
表一 :三個(gè)Baseline中所有客戶端的局部測(cè)試精度的平均值,以及所提出的算法
表二 :所有客戶端全局測(cè)試精度的平均值:
在所有實(shí)驗(yàn)中,無(wú)論是大模型VGG-16還是小模型LeNet-5,局部測(cè)試和全局的準(zhǔn)確率都低于FedAvg。在本地的CIFAR-10實(shí)驗(yàn)中,較大的模型VGG-16的精度特別低,明顯低于較小的模型LeNet5。一般來(lái)說(shuō),模型越深,它的能力限制越高,但是訓(xùn)練需要更多的數(shù)據(jù)。雖然簡(jiǎn)單的模型在本地的性能相對(duì)較好,但它的局限性使客戶更有動(dòng)力參與聯(lián)邦學(xué)習(xí),以訓(xùn)練更強(qiáng)大的模型。
表二表明,三種PFL算法的平均全局測(cè)試精度要高于局部的,這意味著PLF可以有效提高模型在客戶端的泛化能力。由表1可知,在α = 0.5時(shí),這三種個(gè)性化算法的平均局部測(cè)試準(zhǔn)確度比FedAvg高出2% ~ 10%。然而,PFL-FB
更容易引起過(guò)擬合。當(dāng)相對(duì)較大時(shí),PFL-FB
更容易對(duì)局部數(shù)據(jù)過(guò)度擬合,使得個(gè)性化的模型比全局模型更差。
在本文提出的PFL-MF
算法中,如果個(gè)性化的模型出現(xiàn)惡化,將被門控網(wǎng)絡(luò)直接丟棄。此外,門控網(wǎng)絡(luò)已經(jīng)知道哪些數(shù)據(jù)適合使用個(gè)性化模型,哪些數(shù)據(jù)需要更多地向全局模型傾斜。因此,PFL-MF
更穩(wěn)定,其局部測(cè)試精度始終高于FedAvg。
在FashionMNIST上的實(shí)驗(yàn)中,本文提出的PFL-MF
算法在兩次測(cè)試中均優(yōu)于PFL-FB
,表明PFL-MF
比PFL-FB
具有更好的個(gè)性化和泛化效果。
在CIFAR-10上的實(shí)驗(yàn)中,PFL-MFE
比PFL-MF
更有效,因?yàn)殚T控網(wǎng)絡(luò)可以利用抽象特征間接做出更好的決策。對(duì)于簡(jiǎn)單的Fashion-MNIST數(shù)據(jù)集,PFL-MF
就足夠了。在保持PFL-MF
優(yōu)點(diǎn)的同時(shí),PFL-MFE
可以更好地識(shí)別復(fù)雜的輸入數(shù)據(jù)。這也說(shuō)明將特征替換直接輸入能得到”更牢固“的門控網(wǎng)絡(luò)模型。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-724159.html
3.文章總結(jié)
本文提出了PFL-MoE
,一種基于混合專家模型的個(gè)性化聯(lián)邦學(xué)習(xí)方法。PFL-MoE
可以結(jié)合個(gè)性化模型和全局模型的優(yōu)點(diǎn),實(shí)現(xiàn)更好的個(gè)性化和更好的泛化。作為PFL-MoE
的一個(gè)實(shí)例,PFL-MF
在局部測(cè)試和全局測(cè)試中都比已有的算法PFL-FB
表現(xiàn)得更好。實(shí)驗(yàn)結(jié)果表明,PFL-MFE
增強(qiáng)了混合專家模型選通網(wǎng)絡(luò)的決策能力,能夠有效地處理復(fù)雜的數(shù)據(jù)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-724159.html
到了這里,關(guān)于PFL-MoE:基于混合專家的個(gè)性聯(lián)邦學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!