iclr 2024 reviewer 評分 5668
1 intro
- 大模型網(wǎng)絡(luò)剪枝的paper
- 在努力保持性能的同時(shí),舍棄網(wǎng)絡(luò)權(quán)重的一個(gè)子集
- 現(xiàn)有方法
- 要么需要重新訓(xùn)練
- 這對于十億級別的LLMs來說往往不現(xiàn)實(shí)
- 要么需要解決依賴于二階信息的權(quán)重重建問題
- 這同樣可能帶來高昂的計(jì)算成本
- 要么需要重新訓(xùn)練
- ——>引入了一種新穎、簡單且有效的剪枝方法,名為Wanda?(Pruning by Weights and activations)
- 在每個(gè)輸出的基礎(chǔ)上,剪枝那些乘以相應(yīng)輸入激活后幅度最小的權(quán)重
- 無需重新訓(xùn)練或權(quán)重更新,剪枝后的LLM可以即刻使用
2 方法
2.1 motivation
- 考慮一個(gè)帶有兩個(gè)輸入及其對應(yīng)權(quán)重的神經(jīng)元:y = w1x1 + w2x2,其中|w1| ≤ |w2|。
- 現(xiàn)在假設(shè)目標(biāo)是選擇一個(gè)權(quán)重進(jìn)行移除,同時(shí)使輸出變化最小。
- 標(biāo)準(zhǔn)的幅度剪枝方法總是會(huì)移除權(quán)重w1
- 如果輸入特征x1和x2的幅度相似,這可能是一個(gè)好策略。
- 然而,最近在LLMs中觀察到,兩個(gè)輸入特征的規(guī)??赡懿町惡艽蟆@?,可能|x1| ? |x2|,結(jié)果是|w1x1| ? |w2x2|。
- 在這種情況下,我們應(yīng)該移除權(quán)重w2,因?yàn)檫@種移除明顯對神經(jīng)元輸出y的影響小于移除權(quán)重w1。
- 這個(gè)動(dòng)機(jī)示例與最簡單的線性層一起暗示了幅度剪枝的一個(gè)主要限制:
- 它沒有考慮輸入激活,輸入激活在決定神經(jīng)元輸出時(shí)可能與權(quán)重幅度同樣重要。
- 對于剪枝LLMs,這一點(diǎn)尤其關(guān)鍵,考慮到在其中發(fā)現(xiàn)的突出大幅度特征。
- ——>提出了一種專門為LLMs設(shè)計(jì)的剪枝指標(biāo),以處理此類限制,同時(shí)也保持了幅度剪枝的簡單性
2.2?剪枝指標(biāo)
2.3 和現(xiàn)有方法的對比
3 實(shí)驗(yàn)
3.1 效果比較
3.2 速度比較
3.3 finetune 剪枝后的LLM可以接近不剪枝的LLM
文章來源:http://www.zghlxwxcb.cn/news/detail-854503.html
3.4 校準(zhǔn)數(shù)據(jù)(X)的影響
文章來源地址http://www.zghlxwxcb.cn/news/detail-854503.html
到了這里,關(guān)于論文筆記:A Simple and Effective Pruning Approach for Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!