国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment

2年前作者：AI架構(gòu)師易筋分類：Toy博客閱讀(60)違法舉報

這篇具有很好參考價值的文章主要介紹了LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

現(xiàn)在，您已經(jīng)了解了如何調(diào)整和對齊大型語言模型以適應(yīng)您的任務(wù)，讓我們討論一下將模型集成到應(yīng)用程序中需要考慮的事項。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

在這個階段有許多重要的問題需要問。第一組問題與您的LLM在部署中的功能有關(guān)。您需要模型生成完成的速度有多快？您有多少計算預(yù)算可用？您是否愿意為改善推理速度或降低存儲空間而犧牲模型性能？
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

第二組問題與您的模型可能需要的額外資源有關(guān)。您是否打算讓您的模型與外部數(shù)據(jù)或其他應(yīng)用程序進行交互？如果是的話，您將如何連接到這些資源？
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

最后，還有一個問題，即您的模型將如何被使用。您的模型將通過什么樣的預(yù)期應(yīng)用程序或API界面來使用？

讓我們首先探討一些在將模型部署到推理之前用于優(yōu)化模型的方法。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

雖然我們可以將幾節(jié)課用于討論這個主題，但本節(jié)的目標是為您介紹最重要的優(yōu)化技術(shù)。大型語言模型在計算和存儲要求方面提出了推理挑戰(zhàn)，以及確保消費應(yīng)用程序具有低延遲。無論是在本地部署還是部署到云上，當部署到邊緣設(shè)備時，這些挑戰(zhàn)都會更加突出。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

提高應(yīng)用程序性能的主要方法之一是減小LLM的大小。這可以允許模型更快地加載，從而減少推理延遲。但是，挑戰(zhàn)在于在保持模型性能的同時減小模型的大小。對于生成模型，某些技術(shù)比其他技術(shù)效果更好，準確性和性能之間存在權(quán)衡。在本節(jié)中，您將了解三種技術(shù)。

蒸餾使用一個較大的模型，即教師模型，來訓(xùn)練一個較小的模型，即學(xué)生模型。然后，您可以使用較小的模型進行推理，以降低存儲和計算預(yù)算。與量化感知訓(xùn)練類似，后期訓(xùn)練量化將模型的權(quán)重轉(zhuǎn)換為較低精度的表示，例如16位浮點或8位整數(shù)。如您在課程第一周學(xué)到的那樣，這會減小模型的內(nèi)存占用。第三種技術(shù)，模型修剪，刪除了對模型性能貢獻不大的冗余模型參數(shù)。讓我們更詳細地討論這些選項。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

模型蒸餾是一種側(cè)重于使用較大的教師模型來訓(xùn)練較小的學(xué)生模型的技術(shù)。學(xué)生模型學(xué)會統(tǒng)計上模仿教師模型的行為，可以是在最終預(yù)測層或模型的隱藏層中。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

這里我們將重點放在第一種選項上。您可以使用您的微調(diào)LLM作為教師模型，為學(xué)生模型創(chuàng)建一個較小的LLM。您凍結(jié)教師模型的權(quán)重，并使用它來為您的訓(xùn)練數(shù)據(jù)生成完成。同時，您使用學(xué)生模型為訓(xùn)練數(shù)據(jù)生成完成。通過最小化稱為蒸餾損失的損失函數(shù)來實現(xiàn)教師和學(xué)生模型之間的知識蒸餾。為了計算這個損失，蒸餾使用了由教師模型的softmax層產(chǎn)生的標記概率分布。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

現(xiàn)在，教師模型已經(jīng)在訓(xùn)練數(shù)據(jù)上進行了微調(diào)。因此，概率分布可能與基本事實數(shù)據(jù)非常接近，標記中的令牌不會有太大的變化。這就是為什么蒸餾應(yīng)用了一個小技巧，即在softmax函數(shù)中添加溫度參數(shù)。如您在第一課中學(xué)到的，溫度越高，模型生成的語言的創(chuàng)造力就越大。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

通過一個大于一的溫度參數(shù)，概率分布變得更廣泛，峰值不那么尖銳。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

這種較軟的分布為您提供了一組與基本事實標記相似的標記。

在蒸餾的上下文中，教師模型的輸出通常被稱為軟標簽，
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

學(xué)生模型的預(yù)測被稱為軟預(yù)測。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

同時，您訓(xùn)練學(xué)生模型生成基于您的基本事實訓(xùn)練數(shù)據(jù)的正確預(yù)測。在這里，您不會改變溫度設(shè)置，而是使用標準的softmax函數(shù)。蒸餾將學(xué)生和教師模型之間的損失和學(xué)生損失結(jié)合起來，通過反向傳播來更新學(xué)生模型的權(quán)重。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

蒸餾方法的關(guān)鍵好處是可以在部署中使用較小的學(xué)生模型，而不是教師模型。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

在實踐中，蒸餾對生成解碼器模型通常不太有效。通常對僅編碼器模型，如具有大量表示冗余的Bert模型，更有效。請注意，使用蒸餾，您訓(xùn)練了一個第二個較小的模型，用于推理。您沒有以任何方式減小初始LLM的模型大小。

接下來，讓我們看看下一個可以實際減小LLM大小的模型優(yōu)化技術(shù)。在第一周，您已經(jīng)在培訓(xùn)的上下文中介紹了第二種方法，即量化感知訓(xùn)練Specifically Quantization Aware Training，簡稱QAT。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

然而，一旦模型訓(xùn)練完畢，您可以執(zhí)行后期訓(xùn)練量化Post Training quantization，簡稱PTQ，以優(yōu)化部署。PTQ將模型的權(quán)重轉(zhuǎn)換為較低精度的表示，例如16位浮點或8位整數(shù)，以減小模型大小和內(nèi)存占用，以及模型服務(wù)所需的計算資源。一般來說，包括激活的量化方法對模型性能的影響較大。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

量化還需要額外的校準步驟，以統(tǒng)計捕獲原始參數(shù)值的動態(tài)范圍。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

與其他方法一樣，存在權(quán)衡，因為有時量化會導(dǎo)致模型評估指標略微下降。然而，這種降低通常可以抵消成本節(jié)省和性能提高的成本。

最后一個模型優(yōu)化技術(shù)是修剪Pruning。在高層次上，目標是通過消除對總體模型性能貢獻不大的權(quán)重來減小推理的模型大小。這些權(quán)重的值非常接近或等于零。請注意，一些修剪方法需要對模型進行全面重新訓(xùn)練，而其他方法屬于參數(shù)高效微調(diào)的范疇，例如LoRA。還有一些方法專注于后期修剪。在理論上，這可以減小模型的大小并提高性能。然而，在實踐中，如果只有一小部分模型權(quán)重接近零，那么模型的大小和性能可能沒有太大影響。
LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

量化、蒸餾和修剪都旨在減小模型大小，以提高推理時的模型性能，而不影響準確性。優(yōu)化您的模型以供部署將有助于確保您的應(yīng)用程序運行良好，并為用戶提供最佳體驗。

Reference

https://www.coursera.org/learn/generative-ai-with-llms/lecture/qojKp/model-optimizations-for-deployment文章來源地址http://www.zghlxwxcb.cn/news/detail-727469.html

到了這里，關(guān)于LLMs 蒸餾, 量化精度, 剪枝模型優(yōu)化以用于部署 Model optimizations for deployment的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

TensorRT模型優(yōu)化部署 (八）--模型剪枝Pruning
第一章 TensorRT優(yōu)化部署（一）–TensorRT和ONNX基礎(chǔ) 第二章 TensorRT優(yōu)化部署（二）–剖析ONNX架構(gòu) 第三章 TensorRT優(yōu)化部署（三）–ONNX注冊算子第四章 TensorRT模型優(yōu)化部署（四）–Roofline model 第五章 TensorRT模型優(yōu)化部署（五）–模型優(yōu)化部署重點注意第六章 TensorRT模型優(yōu)化部署（
2024年01月20日
瀏覽(24)
【YOLOv7/YOLOv5系列算法改進NO.49】模型剪枝、蒸餾、壓縮
作為當前先進的深度學(xué)習(xí)目標檢測算法YOLOv7，已經(jīng)集合了大量的trick，但是還是有提高和改進的空間，針對具體應(yīng)用場景下的檢測難點，可以不同的改進方法。此后的系列文章，將重點對YOLOv7的如何改進進行詳細的介紹，目的是為了給那些搞科研的同學(xué)需要創(chuàng)新點或者搞工程
2024年02月08日
瀏覽(17)
深度學(xué)習(xí)模型量化、剪枝、壓縮
fp16是指采用2字節(jié)(16位)進行編碼存儲的一種數(shù)據(jù)類型； fp32是指采用4字節(jié)(32位)； fp16 和 fp32 相比對訓(xùn)練的優(yōu)化： 1. 內(nèi)存占用減少：應(yīng)用fp16內(nèi)存占用比原來更小，可以設(shè)置更大的batch_size 2. 加速計算：加速計算只在最近的一些新gpu中，這一塊我還沒有體驗到好處...有論文指出
2024年02月16日
瀏覽(50)
LLMs開源模型們的分布式訓(xùn)練和量化
前一篇博文整理了： LLMs開源模型們和數(shù)據(jù)集簡介這篇博文主要整理一下目前流行的訓(xùn)練方法和量化。（圖自Towards a Unified View of Parameter-Efficient Transfer Learning）使通用LLMs適應(yīng)下游任務(wù)的最常見方法是微調(diào)所有模型參數(shù)或微調(diào)尾層參數(shù)（Freeze）。然而這會導(dǎo)致每個任務(wù)都有一
2024年02月07日
瀏覽(50)
【Transformer論文】CMKD：用于音頻分類的基于 CNN/Transformer 的跨模型知識蒸餾
文獻題目：CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification 文獻時間：2022 音頻分類是一個活躍的研究領(lǐng)域，具有廣泛的應(yīng)用。在過去十年中，卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已成為端到端音頻分類模型的事實上的標準構(gòu)建塊。最近，僅基于自注意力機制（如音頻頻譜
2023年04月17日
瀏覽(25)
基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型，使用pruning剪枝技術(shù)來對模型進行輕量化處理，探索不同剪枝水平下模型性能影響
今天有點時間就想著之前遺留的一個問題正好拿過來做一下看看，主要的目的就是想要對訓(xùn)練好的目標檢測模型進行剪枝處理，這里就以茶葉嫩芽檢測數(shù)據(jù)場景為例了，在我前面的博文中已經(jīng)有過相關(guān)的實踐介紹了，感興趣的話可以自行移步閱讀即可：《融合CBAM注意力機制
2024年02月12日
瀏覽(20)
基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型，使用pruning剪枝技術(shù)來對模型進行輕量化處理，探索不同剪枝水平下模型性能影響【續(xù)】
這里主要是前一篇博文的后續(xù)內(nèi)容，簡單回顧一下：本文選取了n/s/m三款不同量級的模型來依次構(gòu)建訓(xùn)練模型，所有的參數(shù)保持同樣的設(shè)置，之后探索在不同剪枝處理操作下的性能影響。在上一篇博文中保持30的剪枝程度得到的效果還是比較理想的。這里進行的是分別進行6
2024年02月12日
瀏覽(21)
LLMs之ChatGLM2：ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-t
LLMs之ChatGLM2：ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-tuning v2)、模型評估和推理之圖文教程之詳細攻略目錄一、配置基礎(chǔ)環(huán)境及其注意事項第一步、檢測軟硬件環(huán)境
2024年02月07日
瀏覽(29)
模型優(yōu)化之模型剪枝
一、概述模型剪枝按照結(jié)構(gòu)劃分，主要包括結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝：（1）結(jié)構(gòu)化剪枝：剪掉神經(jīng)元節(jié)點之間的不重要的連接。相當于把權(quán)重矩陣中的單個權(quán)重值設(shè)置為0。（2）非結(jié)構(gòu)化剪枝：把權(quán)重矩陣中某個神經(jīng)元節(jié)點去掉，則和神經(jīng)元相連接的突觸也要全部去除。
2024年02月14日
瀏覽(13)
yolov5剪枝與知識蒸餾【附代碼】
剪枝和知識蒸餾均屬于模型輕量化設(shè)計，剪枝是將已有網(wǎng)絡(luò)通過剪枝的手段得到輕量化網(wǎng)絡(luò)，可分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪，該技術(shù) 可以免去人為設(shè)計輕量網(wǎng)絡(luò) ，而是通過計算各個權(quán)重或者通道的貢獻度大小，剪去貢獻度小的權(quán)重或通道，再經(jīng)過微調(diào)訓(xùn)練恢復(fù)精度，
2024年02月05日
瀏覽(21)