国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<td id="eu4i2"></td>

論文筆記｜OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

2年前作者：wzc-run分類(lèi)：Toy博客閱讀(14)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記｜OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

ICLR 2017

摘要

神經(jīng)網(wǎng)絡(luò)吸收信息的能力受到其參數(shù)數(shù)量的限制。條件計(jì)算，即網(wǎng)絡(luò)的某些部分在每個(gè)示例的基礎(chǔ)上處于活動(dòng)狀態(tài)，在理論上已被提出作為一種在不按比例增加計(jì)算量的情況下大幅增加模型容量的方法。然而，在實(shí)踐中，存在重大的算法和性能挑戰(zhàn)。在這項(xiàng)工作中，我們解決了這些挑戰(zhàn)，最終實(shí)現(xiàn)了條件計(jì)算的承諾，模型容量提高了 1000 倍以上，而現(xiàn)代 GPU 集群的計(jì)算效率僅略有損失。我們引入了稀疏門(mén)控專(zhuān)家混合層（MoE），由多達(dá)數(shù)千個(gè)前饋?zhàn)泳W(wǎng)絡(luò)組成。可訓(xùn)練的門(mén)控網(wǎng)絡(luò)確定用于每個(gè)示例的這些專(zhuān)家的稀疏組合。我們將 MoE 應(yīng)用于語(yǔ)言建模和機(jī)器翻譯的任務(wù)，其中模型容量對(duì)于吸收訓(xùn)練語(yǔ)料庫(kù)中的大量可用知識(shí)至關(guān)重要。我們提出了模型架構(gòu)，其中具有多達(dá) 1370 億個(gè)參數(shù)的 MoE 在堆疊的 LSTM 層之間以卷積方式應(yīng)用。在大型語(yǔ)言建模和機(jī)器翻譯基準(zhǔn)上，這些模型以較低的計(jì)算成本取得了比最先進(jìn)模型更好的結(jié)果。

動(dòng)機(jī)

使用條件計(jì)算方法實(shí)現(xiàn)在增加模型容量的同時(shí)，減少計(jì)算的開(kāi)銷(xiāo)。實(shí)現(xiàn)了稀疏門(mén)控專(zhuān)家混合層。

模型結(jié)構(gòu)

經(jīng)典的moe結(jié)構(gòu)表示： $y=\sum_{i=1}^{n}G(x)_i E_i(x)$

如果專(zhuān)家組數(shù)量很大，使用分層moe。

路由網(wǎng)絡(luò)

Softmax Gating: 最簡(jiǎn)單和原始的方法 $G_{\sigma}(x) = Softmax(x\cdot W_g)$
Noisy Top-K Gating: 添加噪聲，平衡訓(xùn)練 $G (x) = S o f t ma x (Kee pT o p K (H (x), k))$
$H(x)_i = (x · W_g)_i + StandardN ormal() · Sof tplus((x · W_{noise})_i)$
$k)_i = \begin{cases} v_i, & \text{if}\ v_i\ \text{is in the top k elements of v} \\ -\infty ,&\text{otherwise.} \end{cases}$

平衡專(zhuān)家利用

作者觀察到，門(mén)控網(wǎng)絡(luò)傾向于收斂到一種狀態(tài)，即它總是為相同的少數(shù)專(zhuān)家產(chǎn)生較大的權(quán)重。這種不平衡是自我強(qiáng)化的，因?yàn)槭芮嗖A的專(zhuān)家訓(xùn)練得更快，因此更容易被門(mén)控網(wǎng)絡(luò)選擇。
bengio也提到了這個(gè)問(wèn)題，解決方法是使用了兩個(gè)損失。其中一個(gè)控制每個(gè)example的稀疏性，我們不需要它，因?yàn)樗怯?k 的固定值強(qiáng)制執(zhí)行的。第三個(gè)損失鼓勵(lì)了門(mén)值的多樣性。在我們的實(shí)驗(yàn)中，我們發(fā)現(xiàn)隨著專(zhuān)家的專(zhuān)業(yè)化，門(mén)值自然會(huì)多樣化（良性循環(huán)），并且我們不需要強(qiáng)制門(mén)值的多樣性。

We take a soft constraint approach：定義了重要性損失，一個(gè)專(zhuān)家的重要性定義為batch數(shù)據(jù)中該專(zhuān)家的gate值的加和。這個(gè)額外的損失鼓勵(lì)全部的專(zhuān)家有相同的重要性。
$\sum_{x\in X} G(x)$
$L_{importance}(X) = w_{importance} · CV (Importance(X))^2$
CV：離散系數(shù)

雖然這種方法可以使得樣本均勻的分給不同的專(zhuān)家，但是，專(zhuān)家的gate weight也是不均勻的，會(huì)造成在分布式硬件上內(nèi)存和性能問(wèn)題，因此引入了另外的損失：load loss

兩個(gè)損失的圖解參考：【手撕LLM-sMoE】離GPT4又近了一步

總結(jié)

sMoE 的經(jīng)典工作之一
輔助loss是有效的設(shè)計(jì)

參考：
https://zhuanlan.zhihu.com/p/335024684
【手撕LLM-sMoE】離GPT4又近了一步
源碼文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-790230.html

到了這里，關(guān)于論文筆記｜OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

論文筆記--Learning Political Polarization on Social Media Using Neural Networks
標(biāo)題：Learning Political Polarization on Social Media Using Neural Networks 作者：LORIS BELCASTRO, RICCARDO CANTINI, FABRIZIO MAROZZO, DOMENICO TALIA AND PAOLO TRUNFIO 日期：2020 期刊：IEEE ??文章提出了一種基于神經(jīng)網(wǎng)絡(luò)對(duì)政治兩極化觀點(diǎn)進(jìn)行分析的方法IOM-NN，基于兩組case的分析結(jié)果表明該方法相比于傳統(tǒng)
2024年02月03日
瀏覽(38)
論文筆記：Adjusting for Autocorrelated Errors in Neural Networks for Time Series
2021 NIPS 原來(lái)的時(shí)間序列預(yù)測(cè)任務(wù)是根據(jù) 預(yù)測(cè) 論文提出用一階自回歸誤差預(yù)測(cè) 一階差分，類(lèi)似于ResNet的殘差思路？記為pred，最終的預(yù)測(cè)結(jié)果 ?
2024年02月14日
瀏覽(17)
SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記
整體結(jié)構(gòu)圖： Style Pooling風(fēng)格池部分： Style Integration風(fēng)格集成部分 1.提出了一個(gè)基于風(fēng)格的重新校準(zhǔn)模塊(SRM),他通過(guò)利用中間特征映射的風(fēng)格來(lái)自適應(yīng)地重新校準(zhǔn)。 2.SRM首先通過(guò)樣式池從特征圖的每個(gè)通道中提取樣式信息，然后通過(guò)獨(dú)立于通道的樣式集成估計(jì)每個(gè)通道的重校
2024年02月11日
瀏覽(21)
【論文筆記】FasterNet：Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks
為了設(shè)計(jì)快速神經(jīng)網(wǎng)絡(luò)，許多工作都集中在減少浮點(diǎn)運(yùn)算（FLOPs）的數(shù)量上。然而，作者觀察到FLOPs的這種減少不一定會(huì)帶來(lái)延遲的類(lèi)似程度的減少。這主要源于每秒低浮點(diǎn)運(yùn)算（FLOPS）效率低下。為了實(shí)現(xiàn)更快的網(wǎng)絡(luò)，作者重新回顧了FLOPs的運(yùn)算符，并證明了如此低的FLOPS主
2024年02月07日
瀏覽(14)
論文筆記--Distilling the Knowledge in a Neural Network
標(biāo)題：Distilling the Knowledge in a Neural Network 作者：Hinton, Geoffrey, Oriol Vinyals, Jeff Dean 日期：2015 期刊：arxiv ??文章提出了一種將大模型壓縮的新的思路：蒸餾distillation。通過(guò)蒸餾，可以將很大的模型壓縮為輕量級(jí)的模型，從而提升推理階段的速率。 ??隨著模型的參數(shù)量越來(lái)越
2024年02月15日
瀏覽(31)
【論文導(dǎo)讀】- Variational Graph Recurrent Neural Networks（VGRNN）
Variational Graph Recurrent Neural Networks（VGRNN）原文地址：Variational Graph Recurrent Neural Networks（VGRNN）：https://arxiv.org/abs/1908.09710 源碼: https://github.com/VGraphRNN/VGRNN Representation learning over graph structured data has been mostly studied in static graph settings while efforts for modeling dynamic graphs are still scant
2024年02月08日
瀏覽(23)
論文閱讀——Imperceptible Adversarial Attack via Invertible Neural Networks
作者：Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan 解決的問(wèn)題：雖然視覺(jué)不可感知性是對(duì)抗性示例的理想特性，但傳統(tǒng)的對(duì)抗性攻擊仍然會(huì)產(chǎn)生可追蹤的對(duì)抗擾動(dòng)。代碼：https://github.com/jjhuangcs/AdvINN 類(lèi)型：黑盒目標(biāo)攻擊，作者利用可逆神經(jīng)網(wǎng)絡(luò)(AdvINN)方法進(jìn)行
2024年02月12日
瀏覽(40)
On the Robustness of Backdoor-based Watermarkingin Deep Neural Networks
關(guān)于深度神經(jīng)網(wǎng)絡(luò)中基于后門(mén)的數(shù)字水印的魯棒性 ABSTRACT 在過(guò)去的幾年中，數(shù)字水印算法已被引入，用于保護(hù)深度學(xué)習(xí)模型免受未經(jīng)授權(quán)的重新分發(fā)。我們調(diào)查了最新深度神經(jīng)網(wǎng)絡(luò)水印方案的魯棒性和可靠性。我們專(zhuān)注于基于后門(mén)的水印技術(shù)，并提出了兩種簡(jiǎn)單而有效的攻擊
2024年02月01日
瀏覽(15)
論文閱讀《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》
就上一篇博客如何寫(xiě)論文、讀（分享匯報(bào)）論文，在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》進(jìn)行實(shí)踐。《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的論文，主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)（CNN）的模型縮
2024年02月03日
瀏覽(23)
論文解讀：SuperGlue: Learning Feature Matching with Graph Neural Networks
SuperGlue: Learning Feature Matching with Graph Neural Networks 發(fā)表時(shí)間：2020 論文地址：https://arxiv.org/abs/1911.11763 項(xiàng)目地址：http://github.com/magicleap/SuperGluePretrainedNetwork。本文介紹了一種通過(guò)聯(lián)合尋找對(duì)應(yīng)和拒絕非匹配點(diǎn)來(lái)匹配兩組局部特征的神經(jīng)網(wǎng)絡(luò)。通過(guò)求解一個(gè)可微最優(yōu)傳輸問(wèn)題來(lái)估
2024年02月08日
瀏覽(20)

<table id="gqu2m"></table>

<small id="gqu2m"></small>

<small id="gqu2m"><tfoot id="gqu2m"></tfoot></small>