国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記:A Simple and Effective Pruning Approach for Large Language Models

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記:A Simple and Effective Pruning Approach for Large Language Models。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

iclr 2024 reviewer 評分 5668

1 intro

  • 大模型網(wǎng)絡(luò)剪枝的paper
    • 在努力保持性能的同時(shí),舍棄網(wǎng)絡(luò)權(quán)重的一個(gè)子集
  • 現(xiàn)有方法
    • 要么需要重新訓(xùn)練
      • 這對于十億級別的LLMs來說往往不現(xiàn)實(shí)
    • 要么需要解決依賴于二階信息的權(quán)重重建問題
      • 這同樣可能帶來高昂的計(jì)算成本
  • ——>引入了一種新穎、簡單且有效的剪枝方法,名為Wanda?(Pruning by Weights and activations)
    • 在每個(gè)輸出的基礎(chǔ)上,剪枝那些乘以相應(yīng)輸入激活后幅度最小的權(quán)重
    • 無需重新訓(xùn)練或權(quán)重更新,剪枝后的LLM可以即刻使用

2 方法

2.1 motivation

  • 考慮一個(gè)帶有兩個(gè)輸入及其對應(yīng)權(quán)重的神經(jīng)元:y = w1x1 + w2x2,其中|w1| ≤ |w2|。
    • 現(xiàn)在假設(shè)目標(biāo)是選擇一個(gè)權(quán)重進(jìn)行移除,同時(shí)使輸出變化最小。
    • 標(biāo)準(zhǔn)的幅度剪枝方法總是會(huì)移除權(quán)重w1
      • 如果輸入特征x1和x2的幅度相似,這可能是一個(gè)好策略。
      • 然而,最近在LLMs中觀察到,兩個(gè)輸入特征的規(guī)??赡懿町惡艽蟆@?,可能|x1| ? |x2|,結(jié)果是|w1x1| ? |w2x2|。
      • 在這種情況下,我們應(yīng)該移除權(quán)重w2,因?yàn)檫@種移除明顯對神經(jīng)元輸出y的影響小于移除權(quán)重w1。

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

  • 這個(gè)動(dòng)機(jī)示例與最簡單的線性層一起暗示了幅度剪枝的一個(gè)主要限制
    • 它沒有考慮輸入激活,輸入激活在決定神經(jīng)元輸出時(shí)可能與權(quán)重幅度同樣重要。
    • 對于剪枝LLMs,這一點(diǎn)尤其關(guān)鍵,考慮到在其中發(fā)現(xiàn)的突出大幅度特征。
    • ——>提出了一種專門為LLMs設(shè)計(jì)的剪枝指標(biāo),以處理此類限制,同時(shí)也保持了幅度剪枝的簡單性

2.2?剪枝指標(biāo)

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

2.3 和現(xiàn)有方法的對比

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

3 實(shí)驗(yàn)

3.1 效果比較

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

3.2 速度比較

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

3.3 finetune 剪枝后的LLM可以接近不剪枝的LLM

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型

3.4 校準(zhǔn)數(shù)據(jù)(X)的影響

論文筆記:A Simple and Effective Pruning Approach for Large Language Models,論文筆記,論文閱讀,剪枝,語言模型文章來源地址http://www.zghlxwxcb.cn/news/detail-854503.html

到了這里,關(guān)于論文筆記:A Simple and Effective Pruning Approach for Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 論文閱讀

    OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 論文閱讀

    題目 :OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 作者 :Karmesh Yadav, Arjun Majumdar, Ram Ramrakhya 來源 :arxiv 時(shí)間 :2023 代碼地址 : https://github.com/ykarmesh/OVRL 我們提出了一個(gè)由與任務(wù)無關(guān)的組件(ViT、卷積和 LSTM)組成的單一神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在 IMAGENAV(“轉(zhuǎn)到 這

    2024年02月11日
    瀏覽(24)
  • 論文筆記:Are Transformers Effective for Time Series Forecasting?

    論文筆記:Are Transformers Effective for Time Series Forecasting?

    AAAI 2023 oral 自注意力計(jì)算是排列不變的(permutation-invariant) 雖然使用各種類型的position embedding和temporal embedding后,會(huì)保留一些order信息,但仍然時(shí)間信息可能會(huì)不可避免地丟失 本文質(zhì)疑基于Transformer以進(jìn)行時(shí)間序列預(yù)測的有效性 現(xiàn)有的基于Transformer的方法,通常比較的baseli

    2024年02月16日
    瀏覽(24)
  • 03-25 周一 論文閱讀 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference

    03-25 周一 論文閱讀 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference

    03-25 周一 論文閱讀 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference of Transformers 時(shí)間 版本 修改人 描述 V0.1 宋全恒 新建文檔 ?Lizhuohan是單位是UC Berkeley(加州大學(xué)伯克利分校)。這可以從文獻(xiàn)的作者信息中得到確認(rèn),其中提到了 “1UC Berkeley” 作為其隸屬單

    2024年04月27日
    瀏覽(26)
  • 【論文筆記】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    【論文筆記】Unifying Large Language Models and Knowledge Graphs:A Roadmap

    (后續(xù)更新完善) 以往將KGs集成到大型語言模型的工作主要分為三個(gè)部分:1)將KGs集成到訓(xùn)練目標(biāo)中,2)將KGs集成到LLM輸入中,3)將KGs集成到附加的融合模塊中。 2.1.1 Integrating KGs into Training Objective 這一類的研究工作集中在設(shè)計(jì)新的知識感知訓(xùn)練目標(biāo),一個(gè)直觀的想法是在預(yù)訓(xùn)練

    2024年02月07日
    瀏覽(49)
  • 論文閱讀 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

    在我們內(nèi)部產(chǎn)品中,一直有關(guān)于網(wǎng)絡(luò)性能數(shù)據(jù)監(jiān)控需求,我們之前是直接使用 ping 命令收集結(jié)果,每臺(tái)服務(wù)器去 ping (N-1) 臺(tái),也就是 N^2 的復(fù)雜度,穩(wěn)定性和性能都存在一些問題,最近打算對這部分進(jìn)行重寫,在重新調(diào)研期間看到了 Pingmesh 這篇論文,Pingmesh 是微軟用來監(jiān)控?cái)?shù)

    2024年02月11日
    瀏覽(22)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,? KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    瀏覽(22)
  • 【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    【論文筆記】A Simple Framework for 3D Occupancy Estimation in Autonomous Driving (SimpleOccupancy)

    原文鏈接:https://arxiv.org/abs/2303.10076 本文提出基于環(huán)視圖像進(jìn)行3D占用估計(jì)的簡單框架,探索了網(wǎng)絡(luò)設(shè)計(jì)、優(yōu)化和評估。網(wǎng)絡(luò)設(shè)計(jì)方面,雖然輸出形式與單目深度估計(jì)和立體匹配不同,但網(wǎng)絡(luò)結(jié)構(gòu)與立體匹配網(wǎng)絡(luò)相似(如下圖所示),可以使用立體匹配的經(jīng)驗(yàn)設(shè)計(jì)網(wǎng)絡(luò)。優(yōu)化

    2024年02月02日
    瀏覽(21)
  • PURE:A Frustratingly Easy Approach for Entity and Relation Extraction

    PURE:A Frustratingly Easy Approach for Entity and Relation Extraction

    原文鏈接: https://aclanthology.org/2021.naacl-main.5.pdf ACL 2021 ?????????對于命名實(shí)體識別和關(guān)系提取,最近的研究要么在這兩個(gè)任務(wù)上使用一個(gè)預(yù)訓(xùn)練結(jié)構(gòu),要么通過共享表征來進(jìn)行多任務(wù)學(xué)習(xí)。作者認(rèn)為實(shí)體模型和關(guān)系模型在上下文表征中學(xué)到了不同的信息,共享它們的表征

    2024年02月08日
    瀏覽(16)
  • 【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    【論文筆記】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    將LLMs應(yīng)用于醫(yī)學(xué),以協(xié)助醫(yī)生和病人護(hù)理,成為人工智能和臨床醫(yī)學(xué)領(lǐng)域的一個(gè)有前景的研究方向。為此, 本綜述提供了醫(yī)學(xué)中LLMs當(dāng)前進(jìn)展、應(yīng)用和面臨挑戰(zhàn)的全面概述 。 具體來說,旨在回答以下問題: 1)什么是LLMs,如何構(gòu)建醫(yī)學(xué)LLMs? 2)醫(yī)學(xué)LLMs的下游表現(xiàn)如何? 3)

    2024年02月03日
    瀏覽(36)
  • [論文筆記]小目標(biāo)識別文獻(xiàn)綜述Towards large-scale small object detection: Survey and Benchmarks

    [論文筆記]小目標(biāo)識別文獻(xiàn)綜述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目標(biāo)檢測= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包