国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文信息

A Survey on Dynamic Neural Networks for Natural Language Processing

發(fā)表單位:University of California, San Diego

作者:Canwen Xu, Julian McAuley

發(fā)表會(huì)議: EACL 2023

論文地址:http://arxiv.org/abs/2202.07101

發(fā)布時(shí)間:2022.2.15(v1) 2023.2.24 (v2)

ABs

掌握主要內(nèi)容

  1. 有效縮小大型Transformer模型是自然語言處理最新進(jìn)展的主要趨勢;

  2. 動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)作為一個(gè)新興的研究方向,能夠通過根據(jù)輸入動(dòng)態(tài)調(diào)整其計(jì)算路徑,在計(jì)算和時(shí)間上以亞線性增加的方式縮小神經(jīng)網(wǎng)絡(luò)。動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)可能是預(yù)訓(xùn)練語言模型參數(shù)數(shù)量不斷增長的有前途的解決方法,既允許使用數(shù)萬億個(gè)參數(shù)進(jìn)行模型預(yù)訓(xùn)練,又可以在移動(dòng)設(shè)備上更快地推理。

  3. 本綜述總結(jié)了NLP三種動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的類型:skimming, mixture of experts, early exit,列舉當(dāng)前面臨的挑戰(zhàn)以及未來研究的方向。

1. INTRO

研究背景

1)NLP模型不斷增大的計(jì)算復(fù)雜度和內(nèi)存消耗,難以用于訓(xùn)練和使用;

2)不需要所有輸入案例分配相同的計(jì)算資源。

主流的動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)方法

動(dòng)態(tài)調(diào)整對(duì)于輸入的計(jì)算,通過繞過大型神經(jīng)網(wǎng)絡(luò)中不必要的模塊來節(jié)省計(jì)算。

1)Skimming(時(shí)間維度):在RNN有廣泛研究,根據(jù)輸入token將計(jì)算資源動(dòng)態(tài)分配到不同的時(shí)間步長,從而達(dá)到時(shí)間維度的節(jié)約計(jì)算。另外,最近Transformer的Skimming工作跳過層之間的token。

由于RNN模型反復(fù)處理輸入串行,因此它允許略讀模型實(shí)現(xiàn)大幅加速,尤其是在串行較長的情況下(Li 等人,2019)。

Xiangsheng Li, Jiaxin Mao, Chao Wang, Yiqun Liu, Min Zhang, and Shaoping Ma. 2019. Teach machine how to read: Reading behavior inspired relevance estimation. In SIGIR, pages 795–804. ACM.

2)Mixture of Experts(網(wǎng)絡(luò)寬度):MoE將前饋網(wǎng)絡(luò)分成多個(gè)子網(wǎng),推理時(shí)只激活部分以此節(jié)省網(wǎng)絡(luò)寬度的計(jì)算量。

3)Early Exit(網(wǎng)絡(luò)深度):通過添加一系列的輕量分類器在早期的網(wǎng)絡(luò)層停止推理,不耗盡全部的計(jì)算資源以節(jié)省網(wǎng)絡(luò)深度的計(jì)算量。

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

動(dòng)態(tài)vs靜態(tài)

與靜態(tài)模型加速(模型壓縮)的不同點(diǎn):考慮輸入的動(dòng)態(tài)調(diào)整

最近的工作表明靜態(tài)和動(dòng)態(tài)方法可以結(jié)合起來,實(shí)現(xiàn)更快的推理和更好的性能。

  1. Roy Schwartz, Gabriel Stanovsky, Swabha Swayamdipta, Jesse Dodge, and Noah A. Smith. 2020. The right tool for the job: Matching model and instance complexities. In ACL, pages 66406651. Association for Computational Linguistics.

  2. Weijie Liu, Peng Zhou, Zhiruo Wang, Zhe Zhao, Haotang Deng, and Qi Ju. 2020. Fastbert: a selfdistilling BERT with adaptive inference time. In ACL, pages 6035–6044. Association for Computational Linguistics.

  3. Wei Zhu. 2021. Leebert: Learned early exit for BERT with cross-level optimization. In ACL-IJCNLP, pages 2968–2980. Association for Computational Linguistics.

2. Skimming

定義:跳過一些時(shí)間步長或者給不同時(shí)間步長分配不同的計(jì)算資源。

直觀上來看,Skimming與人類如何有效地閱讀文本并從中提取信息相似(Li 等人,2019)。

Xiangsheng Li, Jiaxin Mao, Chao Wang, Yiqun Liu, Min Zhang, and Shaoping Ma. 2019. Teach machine how to read: Reading behavior inspired relevance estimation. In SIGIR, pages 795–804. ACM.

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

Skimming 分類如上表所示:

  • skipping and early stopping:跳過不重要的輸入

  • computation reduction:給不重要的輸入分配更少計(jì)算資源

  • dynamic hierachical RNN:增加重要輸入的計(jì)算資源

Skipping and Early Stopping

定義:通過跳過一些token或提前停止讀取來提高長序列的計(jì)算效率。

Li 等人(2019)使用眼動(dòng)追蹤設(shè)備,并證實(shí)當(dāng)人類閱讀文本時(shí),跳過和提前停止是很常見的。

LSTM和RNN的發(fā)展 主要是單/多步長跳過,雙向跳過;token級(jí)別/seq級(jí)別的停止讀取,后續(xù)加入結(jié)構(gòu)信息(即符號(hào) ,; or .!?)作為停止讀取的判斷。跳過幾步token以及停止讀取時(shí)機(jī)通過計(jì)算當(dāng)前狀態(tài)jumping softmax/binary gate決定,

Transformer發(fā)展 通過丟棄或忽略較高層的token來減少計(jì)算量,計(jì)算attention scores決定或者其他策略丟棄(或忽略)的token數(shù)量,通過soft mask層的稀疏性和原始的損失函數(shù)優(yōu)化丟棄(或忽略)的token數(shù)量。

新進(jìn)展:

  • Learned Token Pruning for Transformers

    Key idea: 為每個(gè)Transformer層訓(xùn)練閾值,而不是遵循預(yù)定的時(shí)間表(丟棄/忽略的token數(shù)量),丟棄注意力分?jǐn)?shù)低于學(xué)習(xí)閾值的token。

    Result: FLOPs相較于其他token剪枝方法提高~2.5%,1.9xCPU端加速,2.0x端GPU加速。

    論文地址:[2107.00910] Learned Token Pruning for Transformers (arxiv.org)

    開源:https://github.com/kssteven418/ltp

  • Transkimmer: Transformer Learns to Layer-wise Skim

    Key idea: 在學(xué)習(xí)做skimming決策的每個(gè)層之前添加一個(gè)參數(shù)化預(yù)測器,如果需要跳過,則將hidden層的skimmed token直接向前傳播到最后一層輸出。

    Result: BERT-base 加速10.97x,準(zhǔn)確率損失1%以內(nèi)

    論文地址: 2205.07324.pdf (arxiv.org)

    開源:https://github.com/chandlerguan/transkimmer

Computation Reduction

定義:縮減在某些時(shí)間步長內(nèi)應(yīng)用的計(jì)算工作負(fù)載,而不是完全跳過。

VCRNN: 通過策略決定每個(gè)時(shí)間步長使用的計(jì)算量的比例,將按比例使用權(quán)重矩陣更新隱藏狀態(tài),其他權(quán)重矩陣將被mask成零。

SkimRNN: 在每個(gè)時(shí)間步,模型根據(jù)最后一個(gè)時(shí)間步長的隱藏狀態(tài)和輸入token決定是否要讀取,使用大的RNN網(wǎng)絡(luò)進(jìn)行隱藏狀態(tài)全面更新,小的網(wǎng)絡(luò)更新小部分隱藏狀態(tài)。

Dynamic Hierarchical RNN

定義:增加更上層RNN的計(jì)算量

具體進(jìn)展看論文,寫的很細(xì)致

3. Mixture of Experts

在大型模型中,一個(gè)層通常包含多個(gè)子網(wǎng)(即“專家”)。在推理過程中,每個(gè)輸入樣本只會(huì)激活這些專家中的一小部分。以實(shí)現(xiàn)參數(shù)減少且不成比例增加計(jì)算量。MoE方法的核心就是路由(routing)機(jī)制,該機(jī)制必須輕量不能讓模型更慢。

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

專家混合的方法分如上表所示:

  • learned routing:需一些負(fù)載均衡機(jī)制,保證所有專家通過充足的樣本訓(xùn)練。
  • unlearned routing

這部分的知識(shí)不太懂。。需要補(bǔ)充知識(shí)之后再補(bǔ)充

??4. Early Exit

定義:終止早期層的推理來減少計(jì)算量,通過在中間層添加一系列分類器來實(shí)現(xiàn),選擇退出推理的標(biāo)準(zhǔn)和中間分類器的訓(xùn)練是該方法研究的重點(diǎn)。

早退的優(yōu)點(diǎn)是可以根據(jù)退出閾值的設(shè)置來調(diào)整速度準(zhǔn)確度的權(quán)衡,無需重新訓(xùn)練模型。但是,因?yàn)楦鶕?jù)輸入樣本動(dòng)態(tài)調(diào)整計(jì)算的復(fù)雜度,因此為了追求加速比最大化,通常使用batch=1,難以并行化。

【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing

早退分類及相關(guān)方法如上表所示:(圖上展示的很清楚,不做贅述)

  • Confidence-based Early Exit 使用某個(gè)分類器的閾值來決定是否退出推理

  • Ensemble-based Early Exit 通過多個(gè)分類器來考慮退出推理的時(shí)機(jī)

  • Learning-based Early Exit 通過學(xué)習(xí)確定早退的標(biāo)準(zhǔn)

  • Cascading 模型級(jí)別的動(dòng)態(tài)早退,利用不同層數(shù)的完整模型進(jìn)行級(jí)聯(lián)。從小到大執(zhí)行,在模型輸出達(dá)到置信度的時(shí)候停止

5. Challenges and Future Directions

評(píng)估方法

評(píng)估動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)無法預(yù)先定義在完全相同的計(jì)算量或時(shí)間內(nèi)比較不同的方法,ELUE score 通過考慮計(jì)算和性能,描繪了Pareto前沿,來評(píng)估動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)。

**不同的作品有不同的加速比計(jì)算。**例如,一些工作使用參與計(jì)算的層比例來估計(jì)加速比。但是,內(nèi)部分類器會(huì)引入額外的計(jì)算成本,尤其是在引入更復(fù)雜的機(jī)制時(shí)。此外,MoE模型的報(bào)告速度在不同的硬件和分布設(shè)置上有很大差異,這使得很難進(jìn)行不同論文的比較。

數(shù)據(jù)并行性

動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的一個(gè)缺點(diǎn)是在數(shù)據(jù)并行性上的低效率。MoE方法為動(dòng)態(tài)路由引入了額外的通信成本,并且可能成為效率的瓶頸。skimming和提前退出方法通常采用“在線推理”設(shè)置,其中批量大小固定為1,以實(shí)現(xiàn)最大的加速。然而,對(duì)于批量推理,這些方法的效率會(huì)急劇下降,因?yàn)橐呀?jīng)退出的實(shí)例將不得不等待所有實(shí)例退出,這導(dǎo)致了低并行性和低GPU利用率。

優(yōu)化的運(yùn)行時(shí)間

大多數(shù)硬件和庫并沒有針對(duì)這些動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行很好的優(yōu)化。例如,MoE中的稀疏矩陣乘法需要專門的硬件和軟件支持來實(shí)現(xiàn)其理論效率。

理論的分析和支持

動(dòng)態(tài)網(wǎng)絡(luò)的理論分析不夠充分。例如,PABEE中的理論分析是基于內(nèi)部分類器相互獨(dú)立的假設(shè),這是不現(xiàn)實(shí)的。應(yīng)該對(duì)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分布的優(yōu)化和影響角度進(jìn)行更多的研究。

可解釋性

動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的決策過程對(duì)于解釋模型預(yù)測,甚至理解機(jī)器學(xué)習(xí)中更基本的研究問題,包括標(biāo)度律和泛化,可能是重要的。可以用skimming來解釋序列分類嗎?這是否符合基于注意的解釋?MoE的每個(gè)專家都學(xué)些什么,是什么讓它們不同?為什么一個(gè)較低的內(nèi)部分類器與一個(gè)較高的分類器作出不同的預(yù)測,盡管用相同的目標(biāo)進(jìn)行了同樣的訓(xùn)練?這些問題需要從數(shù)據(jù)和模型的角度進(jìn)行進(jìn)一步的探索。文章來源地址http://www.zghlxwxcb.cn/news/detail-435262.html

到了這里,關(guān)于【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [論文閱讀筆記23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

    [論文閱讀筆記23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

    最近正在痛苦改論文中…還沒投出去, 心情糟糕 所以不如再做一點(diǎn)筆記… 論文題目: Adaptive Sparse Convolutional Networks with Global Context Enhancement for Faster Object Detection on Drone Images 論文地址: 論文 代碼地址: 代碼 這是一篇CVPR2023的文章, 是無人機(jī)數(shù)據(jù)集的小目標(biāo)檢測. 文章針對(duì)小尺寸目

    2024年02月04日
    瀏覽(23)
  • 論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    標(biāo)題:Learning Political Polarization on Social Media Using Neural Networks 作者:LORIS BELCASTRO, RICCARDO CANTINI, FABRIZIO MAROZZO, DOMENICO TALIA AND PAOLO TRUNFIO 日期:2020 期刊:IEEE ??文章提出了一種基于神經(jīng)網(wǎng)絡(luò)對(duì)政治兩極化觀點(diǎn)進(jìn)行分析的方法IOM-NN, 基于兩組case的分析結(jié)果表明該方法相比于傳統(tǒng)

    2024年02月03日
    瀏覽(38)
  • 論文閱讀——Imperceptible Adversarial Attack via Invertible Neural Networks

    論文閱讀——Imperceptible Adversarial Attack via Invertible Neural Networks

    作者:Zihan Chen, Ziyue Wang, Junjie Huang*, Wentao Zhao, Xiao Liu, Dejian Guan 解決的問題:雖然視覺不可感知性是對(duì)抗性示例的理想特性,但傳統(tǒng)的對(duì)抗性攻擊仍然會(huì)產(chǎn)生 可追蹤的對(duì)抗擾動(dòng)。 代碼:https://github.com/jjhuangcs/AdvINN 類型:黑盒 目標(biāo)攻擊, 作者利用可逆神經(jīng)網(wǎng)絡(luò)(AdvINN)方法進(jìn)行

    2024年02月12日
    瀏覽(40)
  • 論文閱讀 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    論文閱讀 (94):Substructure Aware Graph Neural Networks (SAGNN, AAAI2023)

    題目 : 子結(jié)構(gòu)感知圖神經(jīng)網(wǎng)絡(luò) (Substructure aware graph neural networks, SAGNN) 背景 :盡管圖神經(jīng)網(wǎng)絡(luò) (GNN) 在圖學(xué)習(xí)方面取得了巨大成就,但由于GNN的傳播范式與一階Weisfeiler-Leman圖同構(gòu)測試算法 (1-WL) 的一致性,導(dǎo)致其難以突破1-WL表達(dá)能力的上限。 思路 :通過子圖更容易區(qū)分原始圖

    2024年02月12日
    瀏覽(20)
  • 《論文閱讀27》SuperGlue: Learning Feature Matching with Graph Neural Networks

    《論文閱讀27》SuperGlue: Learning Feature Matching with Graph Neural Networks

    研究領(lǐng)域: 圖像特征點(diǎn)匹配 論文:SuperGlue: Learning Feature Matching with Graph Neural Networks CVPR 2020 veido 論文code? [參考]?[參考]?[參考]? ? SuperGlue:使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征匹配 本文介紹了SuperGlue,一種神經(jīng)網(wǎng)絡(luò),通過 共同尋找對(duì)應(yīng)點(diǎn)和拒絕不匹配點(diǎn) 來匹配兩組本地特征。分配估

    2024年02月05日
    瀏覽(21)
  • SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 論文閱讀

    SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 論文閱讀

    題目 :SimVODIS++: Neural Semantic Visual Odometry in Dynamic Environments 作者 :Ue-Hwan Kim , Se-Ho Kim , and Jong-Hwan Kim , Fellow, IEEE 時(shí)間 :2022 來源 : IEEE ROBOTICS AND AUTOMATION LETTERS(RAL) 語義的缺乏和動(dòng)態(tài)對(duì)象導(dǎo)致的性能下降阻礙了其在現(xiàn)實(shí)場景中的應(yīng)用。 為了克服這些限制,我們?cè)赟imultanero

    2024年02月09日
    瀏覽(17)
  • 論文筆記: NSG: Neural Scene Graphs for Dynamic Scenes

    論文筆記: NSG: Neural Scene Graphs for Dynamic Scenes

    對(duì)動(dòng)態(tài)場景進(jìn)行渲染,完成動(dòng)態(tài)前景與背景分離、背景inpainting、動(dòng)態(tài)前景編輯和新視角生成。 之前的方法如nerf只能夠渲染靜態(tài)場景(利用的是靜態(tài)場景在多視角下的一致性),如將整張圖像場景中的所有物體編碼進(jìn)單個(gè)神經(jīng)網(wǎng)絡(luò)中,缺乏表征動(dòng)態(tài)物體和將這些物體分解為單

    2024年01月16日
    瀏覽(22)
  • 論文筆記:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    論文筆記:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    2021 NIPS 原來的時(shí)間序列預(yù)測任務(wù)是根據(jù) 預(yù)測 論文提出用一階自回歸誤差 預(yù)測 一階差分,類似于ResNet的殘差思路? 記 為pred,最終的預(yù)測結(jié)果 ?

    2024年02月14日
    瀏覽(17)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    SRM : A Style-based Recalibration Module for Convolutional Neural Networks論文筆記

    整體結(jié)構(gòu)圖: Style Pooling風(fēng)格池部分: Style Integration風(fēng)格集成部分 1.提出了一個(gè)基于風(fēng)格的重新校準(zhǔn)模塊(SRM),他通過利用中間特征映射的風(fēng)格來自適應(yīng)地重新校準(zhǔn)。 2.SRM首先通過樣式池從特征圖的每個(gè)通道中提取樣式信息,然后通過獨(dú)立于通道的樣式集成估計(jì)每個(gè)通道的重校

    2024年02月11日
    瀏覽(21)
  • 論文閱讀|OUTRAGEOUSLY LARGE NEURAL NETWORKS- THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

    ICLR 2017 神經(jīng)網(wǎng)絡(luò)吸收信息的能力受到其參數(shù)數(shù)量的限制。條件計(jì)算,即網(wǎng)絡(luò)的某些部分在每個(gè)示例的基礎(chǔ)上處于活動(dòng)狀態(tài),在理論上已被提出作為一種在不按比例增加計(jì)算量的情況下大幅增加模型容量的方法。然而,在實(shí)踐中,存在重大的算法和性能挑戰(zhàn)。在這項(xiàng)工作中,我

    2024年02月02日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包