国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【譯】稀疏混合專家模型的崛起: Switch Transformers

這篇具有很好參考價(jià)值的文章主要介紹了【譯】稀疏混合專家模型的崛起: Switch Transformers。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原作:?塞繆爾·弗蘭德

引言:為最強(qiáng)大的語言模型鋪平道路的核心技術(shù)

?

【譯】稀疏混合專家模型的崛起: Switch Transformers

使用 Dall-E 生成的圖像

稀疏混合專家模型 (MoE) 已成為最新一代 LLMs 的核心技術(shù),例如 OpenAI 的 GPT-4、Mistral AI 的 Mixtral-8x7 等。簡而言之,稀疏MoE是一種非常強(qiáng)大的技術(shù),因?yàn)槔碚撋希试S我們以 O(1) 的計(jì)算復(fù)雜度擴(kuò)展任何模型的容量!

然而,正如通常的情況一樣,問題在于細(xì)節(jié),要讓稀疏的 MoE 正常工作就需要確保這些細(xì)節(jié)完全正確。

在本文中,我們將深入探討稀疏MoE領(lǐng)域的一個(gè)核心貢獻(xiàn),即Switch Transformer(Fedus等人,2022年),它首次展示了利用這項(xiàng)技術(shù)實(shí)現(xiàn)了令人印象深刻的擴(kuò)展特性,在Transformer模型的訓(xùn)練中實(shí)現(xiàn)了7倍以上的加速。我們將討論以下內(nèi)容:

  • 硬路由:僅針對每個(gè)token執(zhí)行單個(gè)專家模型所帶來的有利擴(kuò)展特性,
  • Switch Transformer 架構(gòu):MoE 如何適應(yīng)更廣泛的 Transformer 架構(gòu)背景,
  • token動(dòng)態(tài)路由:如何使用容量因子來權(quán)衡計(jì)算效率和建模精度,以及
  • 實(shí)驗(yàn)結(jié)果:Switch Transformer的令人印象深刻的擴(kuò)展特性。

?讓我們開始吧。

?硬路由

回顧一下,MoE 的關(guān)鍵思想是使用專家的線性組合 E(x) 對給定輸入 x 的輸出 y 進(jìn)行建模,每個(gè)專家的權(quán)重由門控 G(x) 控制,

【譯】稀疏混合專家模型的崛起: Switch Transformers

其中門控是輸入x與可學(xué)習(xí)的權(quán)重矩陣W相乘后的softmax函數(shù):

【譯】稀疏混合專家模型的崛起: Switch Transformers

因此,在訓(xùn)練 MoE 模型時(shí),學(xué)習(xí)目標(biāo)有兩個(gè):

  1. 專家將學(xué)習(xí)將給定的輸入處理成最佳的輸出(即預(yù)測)
  2. 門控將通過學(xué)習(xí)矩陣W來將正確的訓(xùn)練樣本分配給正確的專家。

MoE 的這種原始表述可以追溯到30多年前 Geoffrey Hinton 在 90 年代的原創(chuàng)作品,如今已被稱為軟路由(soft routing)。之所以稱為“軟”,是因?yàn)楸M管不同的專家可能具有非常不同的權(quán)重(其中一些幾乎不明顯),我們?nèi)匀粚⑺袑<业妮敵鼋M合在最終結(jié)果中,無論他們的貢獻(xiàn)多么小。

相比之下,在硬路由(hard routing)中,我們只對由門控決定的單個(gè)最合適的專家進(jìn)行向前傳遞,也就是說,我們近似地

【譯】稀疏混合專家模型的崛起: Switch Transformers

其中I是使G取得最大值的索引。

這種方法的動(dòng)機(jī)是在計(jì)算成本上進(jìn)行建模精度的權(quán)衡:如果一個(gè)專家的權(quán)重只有0.01,那么是否真的值得對該專家進(jìn)行向前傳遞呢?

順便說一句,硬路由實(shí)際上是 top-k 路由的一種特殊情況,最初由 Shazeer 等人 (2017) 提出,其中 k=1。雖然Shazeer等人假設(shè)k=1在實(shí)踐中可能效果不,因?yàn)檫@會(huì)嚴(yán)重限制通過專家反向傳播的梯度,但Switch Transformer證明并非如此

(注意,“gate”和“router”這些術(shù)語通常可以互換使用——在稀疏MoE的背景下,它們實(shí)際上意味著相同的東西。)

【譯】稀疏混合專家模型的崛起: Switch Transformers
(Fedus 等人 2022)

具有 5 個(gè)專家和 3 個(gè)token的硬路由插圖,每個(gè)token都有一個(gè) 3 維嵌入。此處,路由器將token 1 分配給專家 1,將token 2 分配給專家 4,將token3 分配給專家 2。圖片來自 Fedus et al 2022。

Switch Transformer架構(gòu)

在常規(guī)的(密集)Transformer塊中,我們將一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(FFN)層堆疊在一個(gè)自注意力層之上,并在它們之間添加殘差連接。在高層次上,自注意力層選擇模型關(guān)注的輸入,而FFN層處理該輸入并將輸出傳遞到下一個(gè)塊,依此類推。例如,BERT-Large是一個(gè)將24個(gè)這些Transformer塊堆疊起來的Transformer模型。

這是這個(gè)密集的 Transformer 塊的可視化效果:

【譯】稀疏混合專家模型的崛起: Switch Transformers
(Fedus 等人 2022)

密集的變壓器塊。圖片來源:Fedus 等人 2022。

在 Switch Transformer 中,我們用多個(gè) FFN“專家”替換單個(gè) FFN 模塊,并讓硬路由器向?qū)<曳峙鋞oken,如下所示:

【譯】稀疏混合專家模型的崛起: Switch Transformers
(Fedus 等人 2022)

Switch Transformer 中的稀疏Transformer塊。圖片來源:Fedus 等人 2022。

最重要的是,這兩種架構(gòu)具有相同的計(jì)算復(fù)雜度,但與前者相比,后者實(shí)際上具有4倍的建模容量(即神經(jīng)元數(shù)量)!這要?dú)w功于稀疏 MoE 的硬路由:雖然我們現(xiàn)在有4個(gè)FFN而不是一個(gè),但對于任何給定的token,只有其中一個(gè)會(huì)處于活動(dòng)狀態(tài)。

token動(dòng)態(tài)路由和容量因子

到目前為止,我們只考慮了路由器如何在專家之間分配token,但沒有具體說明這些專家位于何處。在實(shí)踐中,我們通常將專家分布在多臺(tái)機(jī)器上,這是一種模型并行化形式,也稱為專家并行化。

專家并行化有一個(gè)重要的物理限制:我們不能將比專家所在機(jī)器的內(nèi)存允許的更多token路由到該專家!

【譯】稀疏混合專家模型的崛起: Switch Transformers
(Fedus 等人 2022)

token動(dòng)態(tài)路由作為容量因子的函數(shù)。如果因子為 1,我們就必須丟棄一個(gè)token(紅色箭頭)。在容量因子為1.5的情況下,我們需要添加過多的填充(白色矩形)。來自 Fedus 等人 2022

在這種背景下,我們將專家容量定義為

capacity = f x T/E

其中T是token數(shù)量,E是專家總數(shù),f是一個(gè)被稱為容量因子的自由超參數(shù)。(如果我們使用k>1的top-k路由,則還會(huì)在方程的右側(cè)添加k的因子——然而,在這里我們考慮的是使用硬路由的Switch Transformer,所以我們將使用k=1。)

例如,對于T=6,E=3和f=1,我們允許路由器向每個(gè)專家發(fā)送最多 2 個(gè)token,如上圖左側(cè)面板所示。如果我們發(fā)送更多token,我們就需要丟棄額外的token,如果我們發(fā)送較少token,我們就需要對輸入進(jìn)行填充,以確保一致性——畢竟,在GPU上可以運(yùn)行的計(jì)算圖必須是靜態(tài)的,不能是動(dòng)態(tài)的。

因此,容量因子f引入了一個(gè)權(quán)衡:如果太大,我們會(huì)通過過多的填充浪費(fèi)計(jì)算資源(即上圖中的白色矩形);如果太小,我們會(huì)因?yàn)閠oken丟失而犧牲模型性能(如上圖中的紅色箭頭所示)。

在Switch Transformer論文中,作者發(fā)現(xiàn)較低的容量因子可以獲得更好的性能,例如,將 f 從 2.0 降低到 1.0,在 100k 步后,對數(shù)困惑度從 -1.554 提高到 -1.561。這表明我們因丟棄token而遭受的懲罰并不像計(jì)算資源利用不足所帶來的懲罰那么嚴(yán)重。或者更簡單地說:最好優(yōu)化資源利用率,即使以丟棄token為代價(jià)。

Switch Transformer的可擴(kuò)展性特征

最重要的是,只需增加專家數(shù)量,Switch Transformer可以以近似恒定的計(jì)算復(fù)雜度進(jìn)行擴(kuò)展。這是因?yàn)楦嗟膶<也粫?huì)導(dǎo)致更多的專家向前傳遞——得益于硬路由——而且與整個(gè)模型架構(gòu)相比,添加更多專家時(shí)需要由門控完成的額外計(jì)算可以忽略不計(jì),特別是與計(jì)算量大的 Transformer 塊相比。

下圖顯示了通過用128個(gè)稀疏專家替換單個(gè)FFN模塊,作者能夠達(dá)到與T5語言模型相同的性能,但速度快了7倍!所有這些模型都在相同的機(jī)器上進(jìn)行訓(xùn)練,使用32個(gè)TPUv3核心,并且每個(gè)訓(xùn)練樣本具有相等的FLOPs。

【譯】稀疏混合專家模型的崛起: Switch Transformers
(Fedus 等人 2022)

Switch Transformer通過硬路由實(shí)現(xiàn)了7倍的加速,同時(shí)保持了恒定的計(jì)算復(fù)雜度。

乍一看,這似乎像是魔法。在相同的FLOPs下,怎么可能更快呢?這就好像一輛汽車以相同的速度行駛,卻比原來快7倍到達(dá)目的地!

答案就是,Switch Transformer 利用了稀疏性,特別是稀疏 MoE。雖然我們通過增加專家數(shù)量增加了建模容量,但由于硬路由,我們保持了恒定的FLOPs,也就是說,在每個(gè)訓(xùn)練迭代中我們并沒有執(zhí)行所有的專家,而是只選擇適合每個(gè)token的最佳專家進(jìn)行計(jì)算。

最后

?讓我們回顧一下:

  • 稀疏MoE是一項(xiàng)突破性的技術(shù),因?yàn)樗刮覀兡軌蛞越芆(1)的計(jì)算復(fù)雜度擴(kuò)展建模容量,并實(shí)現(xiàn)了Google的Switch Transformer、OpenAI的GPT-4、Mistral AI的Mixtral-8x7b等重大突破。
  • 硬路由意味著我們只對最合適的專家運(yùn)行向前傳遞,而不是所有專家,從而節(jié)省了FLOPs。
  • Switch Transformer 用使用硬路由的稀疏 MoE 層替換了 T5 Transformer 中的 FFN 層
  • 容量因子決定了每個(gè)專家允許的token數(shù)量,是在token丟棄和機(jī)器利用率之間權(quán)衡的一個(gè)手段。實(shí)驗(yàn)證明,即使以犧牲token為代價(jià),最大化機(jī)器利用率也是正確的目標(biāo)。
  • 由于其良好的可擴(kuò)展性特征,與T5(密集)Transformer模型相比,Switch Transformer在訓(xùn)練速度上實(shí)現(xiàn)了7倍的加速。

雖然Switch Transformer已經(jīng)在語言模型領(lǐng)域取得了突破,但我相信我們才剛剛開始看到它對行業(yè)的全面影響。稀疏 MoE 帶來的強(qiáng)大擴(kuò)展特性有可能為跨領(lǐng)域的應(yīng)用帶來巨大的建模改進(jìn),而不僅僅局限于LLMs。這是機(jī)器學(xué)習(xí)領(lǐng)域激動(dòng)人心的時(shí)刻!文章來源地址http://www.zghlxwxcb.cn/news/detail-828169.html

到了這里,關(guān)于【譯】稀疏混合專家模型的崛起: Switch Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • PFL-MoE:基于混合專家的個(gè)性聯(lián)邦學(xué)習(xí)

    PFL-MoE:基于混合專家的個(gè)性聯(lián)邦學(xué)習(xí)

    文章鏈接:PFL-MoE: Personalized Federated Learning Based on Mixture of Experts 發(fā)表會(huì)議:APWeb-WAIM 2021(CCF-C) 過去幾年,深度學(xué)習(xí)在AI應(yīng)用領(lǐng)域(CV、NLP、RS)中快速發(fā)展,這離不開海量數(shù)據(jù)集的支持。這些數(shù)據(jù)集通常是來自不同組織、設(shè)備或用戶的數(shù)據(jù)集合。 分布式機(jī)器學(xué)習(xí)(distributed m

    2024年02月07日
    瀏覽(25)
  • KDD‘23 | AlphaMix: 高效專家混合框架(MoE)顯著提高上證50選股表現(xiàn)

    KDD‘23 | AlphaMix: 高效專家混合框架(MoE)顯著提高上證50選股表現(xiàn)

    原創(chuàng)?QuantML?QuantML? 2024-04-18 09:17 ? 上海 Content 本文提出了一個(gè)名為AlphaMix的新型 三階段專家混合(Mixture-of-Experts, MoE)框架,旨在模擬現(xiàn)實(shí)世界交易公司中高效的自底向上的交易策略設(shè)計(jì)工作流程,以進(jìn)行量化投資。 主要貢獻(xiàn) 提出了AlphaMix,這是首個(gè)針對量化投資的專家混

    2024年04月23日
    瀏覽(17)
  • AI大模型崛起,向量數(shù)據(jù)庫登場

    引言 AI大模型的興起 2.1 深度學(xué)習(xí)與大模型 2.2 大模型的挑戰(zhàn) 向量數(shù)據(jù)庫的概念與應(yīng)用 3.1 向量表示與相似度計(jì)算 3.2 向量數(shù)據(jù)庫的優(yōu)勢與應(yīng)用場景 大模型與向量數(shù)據(jù)庫的結(jié)合 4.1 向量數(shù)據(jù)庫在大模型中的作用 4.2 大模型與向量數(shù)據(jù)庫的相互促進(jìn) 技術(shù)進(jìn)展與未來展望 5.1 近期技

    2024年02月15日
    瀏覽(42)
  • 圖像處理與計(jì)算機(jī)視覺:AI大模型的崛起

    在過去的幾年里,人工智能(AI)技術(shù)的發(fā)展取得了巨大的進(jìn)步,尤其是在圖像處理和計(jì)算機(jī)視覺領(lǐng)域。隨著深度學(xué)習(xí)和大型模型的興起,我們已經(jīng)看到了一系列令人印象深刻的成果,例如圖像識(shí)別、自動(dòng)駕駛、語音助手等。本文將涵蓋圖像處理與計(jì)算機(jī)視覺領(lǐng)域的核心概念、算

    2024年02月19日
    瀏覽(20)
  • 數(shù)據(jù)分析專家能力模型

    數(shù)據(jù)分析專家能力模型

    招式:懂商業(yè)(業(yè)務(wù)能力) 外功更偏重于技能,首先需要懂招式,即懂商業(yè),數(shù)據(jù)分析最終是為業(yè)務(wù)服務(wù)的,無論是互聯(lián)網(wǎng)企業(yè)準(zhǔn)求的用戶增長和UJM分解,還是傳統(tǒng)企業(yè)追求的降本增效和精細(xì)化運(yùn)營,最終都是為了更好的識(shí)別業(yè)務(wù)問題,尋求解決方案,提出落地建議。如果不

    2024年04月28日
    瀏覽(19)
  • 中外人工智能專家共話大語言模型與 AI 創(chuàng)新

    中外人工智能專家共話大語言模型與 AI 創(chuàng)新

    ?? CSDN 葉庭云 : https://yetingyun.blog.csdn.net/ 智源社區(qū)活動(dòng), 中外人工智能專家共話大語言模型與 AI 創(chuàng)新 。 對談書目: 《大模型時(shí)代》,龍志勇、黃雯 著,中譯出版社 2023 年 5 月出版。 《為什么偉大不能被計(jì)劃》,[美]肯尼斯·斯坦利、[美]喬爾·雷曼 著,中譯出版社 2023

    2024年02月14日
    瀏覽(51)
  • DiT:Transformers 與擴(kuò)散模型強(qiáng)強(qiáng)聯(lián)手

    DiT:Transformers 與擴(kuò)散模型強(qiáng)強(qiáng)聯(lián)手

    出品人: Towhee 技術(shù)團(tuán)隊(duì) 王翔宇、顧夢佳 擴(kuò)散模型在圖像生成領(lǐng)域有著難以撼動(dòng)的地位,而其通常都選擇了卷積 U-Net作為主干模型。那么在其他領(lǐng)域大殺四方的 Transformers 在擴(kuò)散模型中是否還有用武之地呢?基于這一想法,DiT(Diffusion Transformer) 利用transformer結(jié)構(gòu)探索了一種

    2024年02月21日
    瀏覽(20)
  • 深入了解 Transformers –  Part 1: 介紹 Transformer 模型

    深入了解 Transformers – Part 1: 介紹 Transformer 模型

    動(dòng)動(dòng)發(fā)財(cái)?shù)男∈?,點(diǎn)個(gè)贊吧! 自從最新的Large Language Models(LLaM)發(fā)布以來,如OpenAI的GPT系列、開源模型Bloom或谷歌發(fā)布的LaMDA等,Transformer展現(xiàn)出了巨大的潛力,成為了深度學(xué)習(xí)的前沿架構(gòu)楷模。 盡管已經(jīng)有幾篇文章介紹了 transformer 及其背后的數(shù)學(xué)原理,但在 本文 [1] 中,我

    2024年02月04日
    瀏覽(28)
  • 剪枝基礎(chǔ)與實(shí)戰(zhàn)(3): 模型剪枝和稀疏化訓(xùn)練流程

    剪枝基礎(chǔ)與實(shí)戰(zhàn)(3): 模型剪枝和稀疏化訓(xùn)練流程

    ? 相關(guān)論文:Learning Efficient Convolutional Networks through Network Slimming (ICCV 2017) 考慮一個(gè)問題,深度學(xué)習(xí)模型里面的卷積層出來之后的特征有非常多,這里面會(huì)不會(huì) 存在一些沒有價(jià)值的特征 及其相關(guān)的連接?又如何去判斷一個(gè)特征及其連接是否有價(jià)值? 先給出答案: 在 Batch Norm

    2024年02月12日
    瀏覽(54)
  • 【AIGC入門一】Transformers 模型結(jié)構(gòu)詳解及代碼解析

    【AIGC入門一】Transformers 模型結(jié)構(gòu)詳解及代碼解析

    Transformers 開啟了NLP一個(gè)新時(shí)代,注意力模塊目前各類大模型的重要結(jié)構(gòu)。作為剛?cè)腴TLLM的新手,怎么能不感受一下這個(gè)“變形金剛的魅力”呢? 目錄 Transformers ——Attention is all You Need 背景介紹 模型結(jié)構(gòu) 位置編碼 代碼實(shí)現(xiàn): Attention Scaled Dot-product Attention Multi-head Attention Po

    2024年01月16日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包