国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<mark id="xptm1"><xmp id="xptm1"><kbd id="xptm1"><pre id="xptm1"><form id="xptm1"></form></pre></kbd>

MoE：LLM終身學(xué)習(xí)的可能性

2年前作者：華為云開發(fā)者聯(lián)盟分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了MoE：LLM終身學(xué)習(xí)的可能性。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

本文分享自華為云社區(qū)《DTSE Tech Talk | 第47期：MoE：LLM終身學(xué)習(xí)的可能性》，作者：華為云社區(qū)精選。

在DTSE Tech Talk的第47期直播《MoE：LLM終身學(xué)習(xí)的可能性》中，昇思MindSpore技術(shù)專家呂老師與各位開發(fā)者分享有關(guān)于LLM lifelong learning的概念，幫助大家了解持續(xù)學(xué)習(xí)的特性與理論知識，同時也詳細(xì)介紹了MoE的發(fā)展史，讓我們更為直觀的去理解其中技術(shù)要點。

Continual lifelong learning（終身學(xué)習(xí)）

終身學(xué)習(xí)系統(tǒng)被定義為一種能夠從連續(xù)的信息中學(xué)習(xí)的自適應(yīng)算法，隨著時間的推移，這些信息逐步可用，并且所要學(xué)習(xí)的任務(wù)數(shù)量（例如，分類任務(wù)中的成員類）不是預(yù)先定義的。關(guān)鍵的是，新信息的容納應(yīng)該在沒有災(zāi)難性遺忘或干擾的情況下發(fā)生。

持續(xù)學(xué)習(xí)的目標(biāo)與特性

持續(xù)學(xué)習(xí)的目標(biāo)是在模型持續(xù)輸入學(xué)習(xí)新數(shù)據(jù)的同時避免舊知識的遺忘，以下是其性質(zhì)與定義。

參考文獻：Continual Lifelong Learning in Natural Language Processing: A Survey-2020年發(fā)表

性質(zhì)	定義
知識記憶（knowledge retention）	模型不易產(chǎn)生遺忘災(zāi)難
前向遷移（forward transfer）	利用舊知識學(xué)習(xí)新任務(wù)
后向遷移（backward transfer）	新任務(wù)學(xué)習(xí)后提升舊任務(wù)
在線學(xué)習(xí)（online learning）	連續(xù)數(shù)據(jù)流學(xué)習(xí)
無任務(wù)邊界（no task boudaries	不需要明確的任務(wù)或數(shù)據(jù)定義
固定模型容量（fixed model capacity）	模型大小不隨任務(wù)和數(shù)據(jù)變化

LLM的性質(zhì)：

?文章來源地址http://www.zghlxwxcb.cn/news/detail-745965.html

參考文獻：A Survey-2020年發(fā)表

?

性質(zhì)	?	說明
知識記憶（knowledge retention）	√	LLM預(yù)訓(xùn)練后，具備世界知識，小規(guī)模finetune不易對LLM造成遺忘災(zāi)難。但大規(guī)模數(shù)據(jù)續(xù)訓(xùn)會造成。
前向遷移（forward transfer）	√	基于世界知識的Zero shot、few shot、finetune。
后向遷移(backward transfer)	-	Finetune后會可能會造成部分任務(wù)的性能下降。二次finetune會損失首次finetune性能。
在線學(xué)習(xí)(online learning)	×	離線預(yù)訓(xùn)練、微調(diào)。
無任務(wù)邊界(No task boudaries)	√	Unsupervised預(yù)訓(xùn)練、微調(diào)，不區(qū)分任務(wù)。
固定模型容量(Fixed model capacity)	√	LLM預(yù)訓(xùn)練后大小不變。

以上可以看出LLM實際上已經(jīng)滿足了大部分持續(xù)學(xué)習(xí)的性質(zhì)，百億千億級別的大模型經(jīng)過充足的預(yù)訓(xùn)練后，具備大量世界知識以及涌現(xiàn)能力，基于此進行終身學(xué)習(xí)成為可能。

常見的LLM終身學(xué)習(xí)方法有Rehearsal（排練）, Regularization（正則）, Architectural（結(jié)構(gòu)改造）等方式在LLM的參數(shù)量和訓(xùn)練模式下其實都不太適用。而LLM本身為了增大參數(shù)量和減少推理成本的混合專家方法(Mixture of Experts, MoE) 似乎成了LLM終身學(xué)習(xí)的新途徑。

MoE的簡介

MoE即混合專家模型，英文叫Mixture of Experts, 發(fā)展至今已有30多年歷史。MoE是一種模型設(shè)計策略，它通過將多個模型直接結(jié)合在一起，以獲得更好的預(yù)測性能。在大模型中，MoE方案可以有效的提高模型的容量和效率。

一般來說，大模型的MoE有一個門控機制和一套門控輸出機制來合并和平衡專家的選擇，用于決定每個專家對最終預(yù)測的；有一套專家模型選擇機制，會根據(jù)門控機制的輸出選擇一部分專家模型進行預(yù)測。這樣可以較少計算量，并使模型能夠針對不同的輸入選擇最合適的專家模型。

MoE示意圖

圖中多個Export Network用于學(xué)習(xí)不同數(shù)據(jù)，一個Gating Network用于分配每個個Expert的輸出權(quán)重。對于一個輸入樣本c，第i個expert的輸出為，Ground truth是

則損失函數(shù)為：

將提前，使得每個專家模型單獨計算損失函數(shù)，鼓勵不同專家模型的競爭，使得每個數(shù)據(jù)樣盡可能被一個專家處理。專家模型的競爭、合作，以及Gating Network的分發(fā)方式，也成為了MoE演進過程中不斷更迭出新的方向。2017年MoE已初見成型。

Sparse MoE

Google Brain的Shazeer,Noam,等人提出使用稀疏的MoE結(jié)構(gòu)來將模型容量做大的方法，即：訓(xùn)練時使用海量的專家模型，推理時激活少數(shù)專家模型。

Sparse MoE示例圖

如上圖所示，模型共有n個Expert，Gating Network選擇少數(shù)Expert進行計算。此外，在訓(xùn)練過程中前期編號的expert會更容易被gating network選擇，導(dǎo)致只有少數(shù)幾個expert有用，這被稱為Expert Balancing問題。這時的Sparse MoE目標(biāo)方向是將模型做大，以及經(jīng)濟高效地進行訓(xùn)練推理。同年，能夠并行訓(xùn)練的Transformer的出現(xiàn)將所有人的目光都匯聚了過去。

Transformer MoE

當(dāng)模型參數(shù)量到了千億這個級別以后，再想向上擴展變得愈發(fā)困難，經(jīng)濟實用的MoE又被重啟。還是Google，提出了GShard[4]，首個將MoE思想拓展到Transformer的工作，而后Siwtch Transformer[5]、GLaM[6]等工作持續(xù)改進著Transformer MoE的結(jié)構(gòu)，也將LLM的參數(shù)量從千億推向了萬億級別。

Gshard:首個MoE+Transformer模型

Gshard的論文最早于2020.6.30發(fā)表（Gshard Scaling Giant Models with Conditional），Transformer的encoder和decoder中，每隔一個（every other）FFN層，替換成position-wise MoE層。

Switch Transformer號稱擁有萬億級別的Transformer類模型

2021年1月，Google大腦團隊發(fā)布文章“Switch Transformer：scaling to trillion parameter models with simple and efficient sparsity”，其簡化了MoE的routing算法，并且gating network 每次只 route 到 1 個 expert。

GlaM：降本增效，精度更為精確

同年，Google的GlaM模型表明，Transformer和MoE風(fēng)格的層可以組合在一起生成一個模型，在29個基準(zhǔn)測試中平均超過GPT-3模型的精度，而使用3倍少的能耗進行訓(xùn)練和2倍少的計算進行推理。

PanGu-Sigma

Pangu-sigma[8]是今年3月華為諾亞方舟實驗室基于Pangu-alpha模型進行MoE擴充實現(xiàn)的Lifelong-MoE模型。其提出了隨機路由專家（RRE）方法，使得Gating Network也可以隨著Expert進行裁剪。下圖是PanGu-Sigma的示意圖：

這里著重講一下RRE的設(shè)計。前面提到既然可學(xué)習(xí)的Gating Network很難裁剪，那么可以簡單粗暴地使用手動Gating地方式。RRE就是這樣地思路，只是為了緩解過于粗暴的領(lǐng)域區(qū)分（持續(xù)學(xué)習(xí)的性質(zhì)之一就是無任務(wù)邊界，手動Gating一定程度上違背了這一點），RRE做了雙層的設(shè)計：

第一層，根據(jù)任務(wù)分配給不同的專家組（多個expert構(gòu)成一個專家組，供一個task/domain使用）。
第二層，使用組內(nèi)隨機Gating，讓專家組的expert可以負(fù)載均衡。

這樣帶來的好處是顯而易見的，只要對專家組進行裁切，可以完全剝離出某個領(lǐng)域的子模型進行推理部署，同時也可以不斷地更新迭代新的專家組，實現(xiàn)Lifelong-learning。下圖是預(yù)訓(xùn)練好的MoE模型進行子模型抽取的示意圖。

以上兩個工作，是Lifelong-MoE的兩個典型工作，也分別延續(xù)了兩家公司LLM的能力。但值得額外一提的是，MoE LLM實際上從訓(xùn)練起點分為了兩派，分別是from scratch和from pretrained，而GPT4據(jù)稱是from scratch的8個Expert集合，某種意義上可能更像是回到了ensemble階段，更多是為了業(yè)務(wù)效果而非LLM的持續(xù)演進。

MoE存在問題

Lifelong-MoE看起來很好用，但是萬事皆無完美，但MoE方法本身還是有一些問題，下面進行簡單的介紹，也算是后續(xù)演進方向的探討。

MoE結(jié)構(gòu)復(fù)雜度

Transformer的MoE會對FFN層進行MoE擴展，但是Transformer結(jié)構(gòu)本身還有Multihead Attention結(jié)構(gòu)，這使得MoE擴展會變成Transformer結(jié)構(gòu)的侵入式改造，而不管是訓(xùn)練前并行化的侵入式改造，還是訓(xùn)練完成后進行子模型的抽取，都會因為復(fù)雜的結(jié)構(gòu)而需要投入大量人力。

Expert balancing

總會有一部分任務(wù)或領(lǐng)域占據(jù)所有數(shù)據(jù)的大部分，也一定會有長尾數(shù)據(jù)，使用等參數(shù)量、隨機Gating的方式進行強制的均衡分配，實際上也是在傷害模型對現(xiàn)實世界的擬合。神經(jīng)網(wǎng)絡(luò)特點決定的嬴者通吃。Gating Network可學(xué)習(xí)會很自然的朝著幾個擬合較好的Expert進行數(shù)據(jù)分配，這一點仍需要大量的嘗試和研究，也許可以緩解，也許可以解決。

分布式通信問題

當(dāng)下的LLM預(yù)訓(xùn)練必然是要使用分布式并行切分的，而MoE結(jié)構(gòu)和普通的Dense模型的差異在于，其需要額外的AllToAll通信，來實現(xiàn)數(shù)據(jù)的路由(Gating)和結(jié)果的回收。而AllToAll通信會跨Node（服務(wù)器）、跨pod（路由），進而造成大量的通信阻塞問題。

點擊關(guān)注，第一時間了解華為云新鮮技術(shù)~

?

到了這里，關(guān)于MoE：LLM終身學(xué)習(xí)的可能性的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

解決idea打不開的兩種可能性
1. 打開【C:UsersAdministratorAppDataRoamingJetBrainsIntelliJIdea2021.3】文件，找到idea64.exe.vmoptions 文件。 ? ? ? ? ? 因為登錄 windows 的用戶名和 IDEA 版本可能不同，所以你的目錄可能跟我的有點差別； 2. 使用記事本打開 idea64.exe.vmoptions 文件，注釋或者刪除以【-javaagent:】開頭的那一
2024年02月12日
瀏覽(22)
【玩轉(zhuǎn)循環(huán)】探索Python中的無限可能性
循環(huán)可能是每個編程語言中使用比較多的語法了，如果能合理利用好循環(huán)，就會出現(xiàn)意想不到的結(jié)果，大大地減少代碼量，讓機器做那些簡單枯燥的循環(huán)過程，今天我將為大家分享 python 中的循環(huán)語法使用。?????? 當(dāng)然，循環(huán)也不能無止盡的進行下去，所以通常需要使用計
2024年02月11日
瀏覽(18)
大數(shù)據(jù)驅(qū)動的智能家居：未來生活的可能性
隨著科技的不斷發(fā)展，我們的生活也在不斷變化。智能家居就是這種變革的一種體現(xiàn)。智能家居通過互聯(lián)網(wǎng)和智能設(shè)備為我們的生活帶來了更多的便利和舒適感。然而，智能家居的發(fā)展還面臨著許多挑戰(zhàn)。這篇文章將探討大數(shù)據(jù)在智能家居中的應(yīng)用和未來發(fā)展趨勢。智能家居
2024年04月28日
瀏覽(32)
“智慧時代的引領(lǐng)者：探索人工智能的無限可能性“
目錄一.背景二.應(yīng)用 2.1金融領(lǐng)域 2.2醫(yī)療領(lǐng)域 2.3教育領(lǐng)域三.發(fā)展四.總結(jié): 人工智能（Artificial Intelligence，簡稱AI），是指通過計算機程序模擬人類智能的一種技術(shù)。它是計算機科學(xué)、工程學(xué)、語言學(xué)、哲學(xué)等多學(xué)科交叉的產(chǎn)物。通過計算機程序來模擬人類智能，實現(xiàn)自主思
2024年02月08日
瀏覽(28)
蜻蜓優(yōu)化算法與人工智能的結(jié)合：未來的可能性
蜻蜓優(yōu)化算法(Hummingbird Optimization Algorithm, HOA)是一種基于自然界現(xiàn)象的優(yōu)化算法，它模仿了蜻蜓在尋找食物和逃跑時的行為，以解決復(fù)雜的優(yōu)化問題。在過去的幾年里，人工智能(AI)技術(shù)的發(fā)展取得了顯著的進展，許多優(yōu)化算法已經(jīng)成為解決復(fù)雜問題的重要工具。然而，蜻蜓優(yōu)
2024年02月22日
瀏覽(28)
超越HTTP/1.1：探索HTTP/2的無盡可能性
HTTP/2 是一個應(yīng)用層傳輸協(xié)議，是 HTTP 協(xié)議的第二個主要版本。HTTP2 主要是基于 google 的 SPDY 協(xié)議，SPDY 的關(guān)鍵技術(shù)被 HTTP2 采納了，因此 SPDY 的成員全程參與了 HTTP2 協(xié)議制定過程 HTTP/2 由互聯(lián)網(wǎng)工程任務(wù)組（IETF）的Hypertext Transfer Protocol Bis (httpbis)工作小組進行開發(fā)的，是自199
2024年03月12日
瀏覽(16)
在NISQ小型計算機上執(zhí)行大型并行量子計算的可能性
Steve White提出了密度矩陣重整化群（DMRG）的基本思想，即糾纏是一種有價值的資源，可以用來精確或近似地描述大量子系統(tǒng)。后來，這一思想被理解為優(yōu)化矩陣積狀態(tài)（MPS）的算法，支持將張量網(wǎng)絡(luò)用作波函數(shù)的變分參數(shù)化，其中糾纏是一個量化的資源。這種方法允許將計算
2024年02月05日
瀏覽(19)
百度文心一言可以完勝ChatGPT的4點可能性
文心一言，百度全新一代知識增強大語言模型，文心大模型家族的新成員，能夠與人對話互動，回答問題，協(xié)助創(chuàng)作，高效便捷地幫助人們獲取信息、知識和靈感。但說實話，很多人拿他與 ChatGPT 相對比，結(jié)果我就不說了。今天，我通過個人的感受來說一下，如果百度
2024年02月02日
瀏覽(22)
介紹Phi-3：微軟重新定義小型語言模型（SLM）的可能性
??每周跟蹤AI熱點新聞動向和震撼發(fā)展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術(shù)突破、實際應(yīng)用案例和未來的趨勢。與全球數(shù)同行一同，從行業(yè)內(nèi)部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領(lǐng)域的領(lǐng)跑者。點擊訂閱，與
2024年04月28日
瀏覽(14)
eBPF技術(shù)：開啟下一代系統(tǒng)觀測與網(wǎng)絡(luò)安全的可能性
導(dǎo)言：在當(dāng)今數(shù)字化時代，系統(tǒng)觀測和網(wǎng)絡(luò)安全成為了企業(yè)和組織中至關(guān)重要的領(lǐng)域。而eBPF（extended Berkeley Packet Filter）技術(shù)作為一種創(chuàng)新的工具和框架，正在迅速嶄露頭角。本文將深入探討eBPF技術(shù)的原理、優(yōu)勢和應(yīng)用領(lǐng)域，以展示其在開啟下一代系統(tǒng)觀測與網(wǎng)絡(luò)安全中的潛
2024年04月25日
瀏覽(36)

<mark id="6olfi"></mark>