国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ICLR 2017

摘要

神經(jīng)網(wǎng)絡(luò)吸收信息的能力受到其參數(shù)數(shù)量的限制。條件計(jì)算,即網(wǎng)絡(luò)的某些部分在每個(gè)示例的基礎(chǔ)上處于活動(dòng)狀態(tài),在理論上已被提出作為一種在不按比例增加計(jì)算量的情況下大幅增加模型容量的方法。然而,在實(shí)踐中,存在重大的算法和性能挑戰(zhàn)。在這項(xiàng)工作中,我們解決了這些挑戰(zhàn),最終實(shí)現(xiàn)了條件計(jì)算的承諾,模型容量提高了 1000 倍以上,而現(xiàn)代 GPU 集群的計(jì)算效率僅略有損失。我們引入了稀疏門(mén)控專(zhuān)家混合層(MoE),由多達(dá)數(shù)千個(gè)前饋?zhàn)泳W(wǎng)絡(luò)組成。可訓(xùn)練的門(mén)控網(wǎng)絡(luò)確定用于每個(gè)示例的這些專(zhuān)家的稀疏組合。我們將 MoE 應(yīng)用于語(yǔ)言建模和機(jī)器翻譯的任務(wù),其中模型容量對(duì)于吸收訓(xùn)練語(yǔ)料庫(kù)中的大量可用知識(shí)至關(guān)重要。我們提出了模型架構(gòu),其中具有多達(dá) 1370 億個(gè)參數(shù)的 MoE 在堆疊的 LSTM 層之間以卷積方式應(yīng)用。在大型語(yǔ)言建模和機(jī)器翻譯基準(zhǔn)上,這些模型以較低的計(jì)算成本取得了比最先進(jìn)模型更好的結(jié)果。

動(dòng)機(jī)

使用條件計(jì)算方法實(shí)現(xiàn)在增加模型容量的同時(shí),減少計(jì)算的開(kāi)銷(xiāo)。實(shí)現(xiàn)了稀疏門(mén)控專(zhuān)家混合層。

模型結(jié)構(gòu)

經(jīng)典的moe結(jié)構(gòu)表示: y = ∑ i = 1 n G ( x ) i E i ( x ) y=\sum_{i=1}^{n}G(x)_i E_i(x) y=i=1n?G(x)i?Ei?(x)

如果專(zhuān)家組數(shù)量很大,使用分層moe。

路由網(wǎng)絡(luò)

  • Softmax Gating: 最簡(jiǎn)單和原始的方法 G σ ( x ) = S o f t m a x ( x ? W g ) G_{\sigma}(x) = Softmax(x\cdot W_g) Gσ?(x)=Softmax(x?Wg?)

  • Noisy Top-K Gating: 添加噪聲,平衡訓(xùn)練 G ( x ) = S o f t m a x ( K e e p T o p K ( H ( x ) , k ) ) G(x) = Sof tmax(KeepT opK(H(x), k)) G(x)=Softmax(KeepTopK(H(x),k))
    H ( x ) i = ( x ? W g ) i + S t a n d a r d N o r m a l ( ) ? S o f t p l u s ( ( x ? W n o i s e ) i ) H(x)_i = (x · W_g)_i + StandardN ormal() · Sof tplus((x · W_{noise})_i) H(x)i?=(x?Wg?)i?+StandardNormal()?Softplus((x?Wnoise?)i?)
    K e e p T o p K ( v , k ) i = { v i , if? v i ?is?in?the?top?k?elements?of?v ? ∞ , otherwise. KeepTopK(v, k)_i = \begin{cases} v_i, & \text{if}\ v_i\ \text{is in the top k elements of v} \\ -\infty ,&\text{otherwise.} \end{cases} KeepTopK(v,k)i?={vi?,?,?if?vi??is?in?the?top?k?elements?of?votherwise.?

平衡專(zhuān)家利用

作者觀察到,門(mén)控網(wǎng)絡(luò)傾向于收斂到一種狀態(tài),即它總是為相同的少數(shù)專(zhuān)家產(chǎn)生較大的權(quán)重。這種不平衡是自我強(qiáng)化的,因?yàn)槭芮嗖A的專(zhuān)家訓(xùn)練得更快,因此更容易被門(mén)控網(wǎng)絡(luò)選擇。
bengio也提到了這個(gè)問(wèn)題,解決方法是使用了兩個(gè)損失。其中一個(gè)控制每個(gè)example的稀疏性,我們不需要它,因?yàn)樗怯?k 的固定值強(qiáng)制執(zhí)行的。第三個(gè)損失鼓勵(lì)了門(mén)值的多樣性。在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)隨著專(zhuān)家的專(zhuān)業(yè)化,門(mén)值自然會(huì)多樣化(良性循環(huán)),并且我們不需要強(qiáng)制門(mén)值的多樣性。

We take a soft constraint approach:定義了重要性損失,一個(gè)專(zhuān)家的重要性定義為batch數(shù)據(jù)中該專(zhuān)家的gate值的加和。這個(gè)額外的損失鼓勵(lì)全部的專(zhuān)家有相同的重要性。
I m p o r t a n c e ( X ) = ∑ x ∈ X G ( x ) Importance(X) = \sum_{x\in X} G(x) Importance(X)=xX?G(x)
L i m p o r t a n c e ( X ) = w i m p o r t a n c e ? C V ( I m p o r t a n c e ( X ) ) 2 L_{importance}(X) = w_{importance} · CV (Importance(X))^2 Limportance?(X)=wimportance??CV(Importance(X))2
CV:離散系數(shù)

雖然這種方法可以使得樣本均勻的分給不同的專(zhuān)家,但是,專(zhuān)家的gate weight也是不均勻的,會(huì)造成在分布式硬件上內(nèi)存和性能問(wèn)題,因此引入了另外的損失:load loss

兩個(gè)損失的圖解參考:【手撕LLM-sMoE】離GPT4又近了一步

總結(jié)

  • sMoE 的經(jīng)典工作之一
  • 輔助loss是有效的設(shè)計(jì)

參考:
https://zhuanlan.zhihu.com/p/335024684
【手撕LLM-sMoE】離GPT4又近了一步
源碼文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-790230.html

到了這里,關(guān)于論文筆記|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    標(biāo)題:Learning Political Polarization on Social Media Using Neural Networks 作者:LORIS BELCASTRO, RICCARDO CANTINI, FABRIZIO MAROZZO, DOMENICO TALIA AND PAOLO TRUNFIO 日期:2020 期刊:IEEE ??文章提出了一種基于神經(jīng)網(wǎng)絡(luò)對(duì)政治兩極化觀點(diǎn)進(jìn)行分析的方法IOM-NN, 基于兩組case的分析結(jié)果表明該方法相比于傳統(tǒng)

    2024年02月03日
    瀏覽(38)
  • 論文筆記:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    論文筆記:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    2021 NIPS 原來(lái)的時(shí)間序列預(yù)測(cè)任務(wù)是根據(jù) 預(yù)測(cè) 論文提出用一階自回歸誤差 預(yù)測(cè) 一階差分,類(lèi)似于ResNet的殘差思路? 記 為pred,最終的預(yù)測(cè)結(jié)果 ?

    2024年02月14日
    瀏覽(17)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    整體結(jié)構(gòu)圖: Style Pooling風(fēng)格池部分: Style Integration風(fēng)格集成部分 1.提出了一個(gè)基于風(fēng)格的重新校準(zhǔn)模塊(SRM),他通過(guò)利用中間特征映射的風(fēng)格來(lái)自適應(yīng)地重新校準(zhǔn)。 2.SRM首先通過(guò)樣式池從特征圖的每個(gè)通道中提取樣式信息,然后通過(guò)獨(dú)立于通道的樣式集成估計(jì)每個(gè)通道的重校

    2024年02月11日
    瀏覽(21)
  • 【論文筆記】FasterNet:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

    【論文筆記】FasterNet:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

    為了設(shè)計(jì)快速神經(jīng)網(wǎng)絡(luò),許多工作都集中在減少浮點(diǎn)運(yùn)算(FLOPs)的數(shù)量上。然而,作者觀察到FLOPs的這種減少不一定會(huì)帶來(lái)延遲的類(lèi)似程度的減少。這主要源于每秒低浮點(diǎn)運(yùn)算(FLOPS)效率低下。 為了實(shí)現(xiàn)更快的網(wǎng)絡(luò),作者重新回顧了FLOPs的運(yùn)算符,并證明了如此低的FLOPS主

    2024年02月07日
    瀏覽(14)
  • 論文筆記--Distilling the Knowledge in a Neural Network

    論文筆記--Distilling the Knowledge in a Neural Network

    標(biāo)題:Distilling the Knowledge in a Neural Network 作者:Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期:2015 期刊:arxiv ??文章提出了一種將大模型壓縮的新的思路:蒸餾distillation。通過(guò)蒸餾,可以將很大的模型壓縮為輕量級(jí)的模型,從而提升推理階段的速率。 ??隨著模型的參數(shù)量越來(lái)越

    2024年02月15日
    瀏覽(31)
  • 【論文導(dǎo)讀】- Variational Graph Recurrent Neural Networks(VGRNN)

    【論文導(dǎo)讀】- Variational Graph Recurrent Neural Networks(VGRNN)

    Variational Graph Recurrent Neural Networks(VGRNN) 原文地址:Variational Graph Recurrent Neural Networks(VGRNN):https://arxiv.org/abs/1908.09710 源碼: https://github.com/VGraphRNN/VGRNN Representation learning over graph structured data has been mostly studied in static graph settings while efforts for modeling dynamic graphs are still scant

    2024年02月08日
    瀏覽(23)
  • 論文閱讀——Imperceptible Adversarial Attack via Invertible Neural Networks

    論文閱讀——Imperceptible Adversarial Attack via Invertible Neural Networks

    作者:Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan 解決的問(wèn)題:雖然視覺(jué)不可感知性是對(duì)抗性示例的理想特性,但傳統(tǒng)的對(duì)抗性攻擊仍然會(huì)產(chǎn)生 可追蹤的對(duì)抗擾動(dòng)。 代碼:https://github.com/jjhuangcs/AdvINN 類(lèi)型:黑盒 目標(biāo)攻擊, 作者利用可逆神經(jīng)網(wǎng)絡(luò)(AdvINN)方法進(jìn)行

    2024年02月12日
    瀏覽(40)
  • On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks

    On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks

    關(guān)于深度神經(jīng)網(wǎng)絡(luò)中基于后門(mén)的數(shù)字水印的魯棒性 ABSTRACT 在過(guò)去的幾年中,數(shù)字水印算法已被引入,用于保護(hù)深度學(xué)習(xí)模型免受未經(jīng)授權(quán)的重新分發(fā)。我們調(diào)查了最新深度神經(jīng)網(wǎng)絡(luò)水印方案的魯棒性和可靠性。我們專(zhuān)注于基于后門(mén)的水印技術(shù),并提出了兩種簡(jiǎn)單而有效的攻擊

    2024年02月01日
    瀏覽(15)
  • 論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何寫(xiě)論文、讀(分享匯報(bào))論文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》進(jìn)行實(shí)踐。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的論文,主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型縮

    2024年02月03日
    瀏覽(23)
  • 論文解讀:SuperGlue: Learning Feature Matching with Graph Neural Networks

    論文解讀:SuperGlue: Learning Feature Matching with Graph Neural Networks

    SuperGlue: Learning Feature Matching with Graph Neural Networks 發(fā)表時(shí)間:2020 論文地址:https://arxiv.org/abs/1911.11763 項(xiàng)目地址:http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介紹了一種通過(guò)聯(lián)合尋找對(duì)應(yīng)和拒絕非匹配點(diǎn)來(lái)匹配兩組局部特征的神經(jīng)網(wǎng)絡(luò)。通過(guò)求解一個(gè)可微最優(yōu)傳輸問(wèn)題來(lái)估

    2024年02月08日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包