国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment

這篇具有很好參考價值的文章主要介紹了LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

現(xiàn)在,您已經(jīng)了解了如何調(diào)整和對齊大型語言模型以適應(yīng)您的任務(wù),讓我們討論一下將模型集成到應(yīng)用程序中需要考慮的事項。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

在這個階段有許多重要的問題需要問。第一組問題與您的LLM在部署中的功能有關(guān)。您需要模型生成完成的速度有多快?您有多少計算預(yù)算可用?您是否愿意為改善推理速度或降低存儲空間而犧牲模型性能?
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

第二組問題與您的模型可能需要的額外資源有關(guān)。您是否打算讓您的模型與外部數(shù)據(jù)或其他應(yīng)用程序進行交互?如果是的話,您將如何連接到這些資源?
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

最后,還有一個問題,即您的模型將如何被使用。您的模型將通過什么樣的預(yù)期應(yīng)用程序或API界面來使用?

讓我們首先探討一些在將模型部署到推理之前用于優(yōu)化模型的方法。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

雖然我們可以將幾節(jié)課用于討論這個主題,但本節(jié)的目標是為您介紹最重要的優(yōu)化技術(shù)。大型語言模型在計算和存儲要求方面提出了推理挑戰(zhàn),以及確保消費應(yīng)用程序具有低延遲。無論是在本地部署還是部署到云上,當部署到邊緣設(shè)備時,這些挑戰(zhàn)都會更加突出。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

提高應(yīng)用程序性能的主要方法之一是減小LLM的大小。這可以允許模型更快地加載,從而減少推理延遲。但是,挑戰(zhàn)在于在保持模型性能的同時減小模型的大小。對于生成模型,某些技術(shù)比其他技術(shù)效果更好,準確性和性能之間存在權(quán)衡。在本節(jié)中,您將了解三種技術(shù)。

蒸餾使用一個較大的模型,即教師模型,來訓(xùn)練一個較小的模型,即學(xué)生模型。然后,您可以使用較小的模型進行推理,以降低存儲和計算預(yù)算。與量化感知訓(xùn)練類似,后期訓(xùn)練量化將模型的權(quán)重轉(zhuǎn)換為較低精度的表示,例如16位浮點或8位整數(shù)。如您在課程第一周學(xué)到的那樣,這會減小模型的內(nèi)存占用。第三種技術(shù),模型修剪,刪除了對模型性能貢獻不大的冗余模型參數(shù)。讓我們更詳細地討論這些選項。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

模型蒸餾是一種側(cè)重于使用較大的教師模型來訓(xùn)練較小的學(xué)生模型的技術(shù)。學(xué)生模型學(xué)會統(tǒng)計上模仿教師模型的行為,可以是在最終預(yù)測層或模型的隱藏層中。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

這里我們將重點放在第一種選項上。您可以使用您的微調(diào)LLM作為教師模型,為學(xué)生模型創(chuàng)建一個較小的LLM。您凍結(jié)教師模型的權(quán)重,并使用它來為您的訓(xùn)練數(shù)據(jù)生成完成。同時,您使用學(xué)生模型為訓(xùn)練數(shù)據(jù)生成完成。通過最小化稱為蒸餾損失的損失函數(shù)來實現(xiàn)教師和學(xué)生模型之間的知識蒸餾。為了計算這個損失,蒸餾使用了由教師模型的softmax層產(chǎn)生的標記概率分布。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

現(xiàn)在,教師模型已經(jīng)在訓(xùn)練數(shù)據(jù)上進行了微調(diào)。因此,概率分布可能與基本事實數(shù)據(jù)非常接近,標記中的令牌不會有太大的變化。這就是為什么蒸餾應(yīng)用了一個小技巧,即在softmax函數(shù)中添加溫度參數(shù)。如您在第一課中學(xué)到的,溫度越高,模型生成的語言的創(chuàng)造力就越大。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

通過一個大于一的溫度參數(shù),概率分布變得更廣泛,峰值不那么尖銳。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

這種較軟的分布為您提供了一組與基本事實標記相似的標記。

在蒸餾的上下文中,教師模型的輸出通常被稱為軟標簽,
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

學(xué)生模型的預(yù)測被稱為軟預(yù)測。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

同時,您訓(xùn)練學(xué)生模型生成基于您的基本事實訓(xùn)練數(shù)據(jù)的正確預(yù)測。在這里,您不會改變溫度設(shè)置,而是使用標準的softmax函數(shù)。蒸餾將學(xué)生和教師模型之間的損失和學(xué)生損失結(jié)合起來,通過反向傳播來更新學(xué)生模型的權(quán)重。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

蒸餾方法的關(guān)鍵好處是可以在部署中使用較小的學(xué)生模型,而不是教師模型。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

在實踐中,蒸餾對生成解碼器模型通常不太有效。通常對僅編碼器模型,如具有大量表示冗余的Bert模型,更有效。請注意,使用蒸餾,您訓(xùn)練了一個第二個較小的模型,用于推理。您沒有以任何方式減小初始LLM的模型大小。

接下來,讓我們看看下一個可以實際減小LLM大小的模型優(yōu)化技術(shù)。在第一周,您已經(jīng)在培訓(xùn)的上下文中介紹了第二種方法,即量化感知訓(xùn)練Specifically Quantization Aware Training,簡稱QAT。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

然而,一旦模型訓(xùn)練完畢,您可以執(zhí)行后期訓(xùn)練量化Post Training quantization,簡稱PTQ,以優(yōu)化部署。PTQ將模型的權(quán)重轉(zhuǎn)換為較低精度的表示,例如16位浮點或8位整數(shù),以減小模型大小和內(nèi)存占用,以及模型服務(wù)所需的計算資源。一般來說,包括激活的量化方法對模型性能的影響較大。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

量化還需要額外的校準步驟,以統(tǒng)計捕獲原始參數(shù)值的動態(tài)范圍。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

與其他方法一樣,存在權(quán)衡,因為有時量化會導(dǎo)致模型評估指標略微下降。然而,這種降低通常可以抵消成本節(jié)省和性能提高的成本。

最后一個模型優(yōu)化技術(shù)是修剪Pruning。在高層次上,目標是通過消除對總體模型性能貢獻不大的權(quán)重來減小推理的模型大小。這些權(quán)重的值非常接近或等于零。請注意,一些修剪方法需要對模型進行全面重新訓(xùn)練,而其他方法屬于參數(shù)高效微調(diào)的范疇,例如LoRA。還有一些方法專注于后期修剪。在理論上,這可以減小模型的大小并提高性能。然而,在實踐中,如果只有一小部分模型權(quán)重接近零,那么模型的大小和性能可能沒有太大影響。
LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment,LLM-Large Language Models,剪枝,算法,機器學(xué)習(xí),chatgpt,深度學(xué)習(xí)

量化、蒸餾和修剪都旨在減小模型大小,以提高推理時的模型性能,而不影響準確性。優(yōu)化您的模型以供部署將有助于確保您的應(yīng)用程序運行良好,并為用戶提供最佳體驗。

Reference

https://www.coursera.org/learn/generative-ai-with-llms/lecture/qojKp/model-optimizations-for-deployment文章來源地址http://www.zghlxwxcb.cn/news/detail-727469.html

到了這里,關(guān)于LLMs 蒸餾, 量化精度, 剪枝 模型優(yōu)化以用于部署 Model optimizations for deployment的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • TensorRT模型優(yōu)化部署 (八)--模型剪枝Pruning

    TensorRT模型優(yōu)化部署 (八)--模型剪枝Pruning

    第一章 TensorRT優(yōu)化部署(一)–TensorRT和ONNX基礎(chǔ) 第二章 TensorRT優(yōu)化部署(二)–剖析ONNX架構(gòu) 第三章 TensorRT優(yōu)化部署(三)–ONNX注冊算子 第四章 TensorRT模型優(yōu)化部署(四)–Roofline model 第五章 TensorRT模型優(yōu)化部署(五)–模型優(yōu)化部署重點注意 第六章 TensorRT模型優(yōu)化部署(

    2024年01月20日
    瀏覽(24)
  • 【YOLOv7/YOLOv5系列算法改進NO.49】模型剪枝、蒸餾、壓縮

    【YOLOv7/YOLOv5系列算法改進NO.49】模型剪枝、蒸餾、壓縮

    作為當前先進的深度學(xué)習(xí)目標檢測算法YOLOv7,已經(jīng)集合了大量的trick,但是還是有提高和改進的空間,針對具體應(yīng)用場景下的檢測難點,可以不同的改進方法。此后的系列文章,將重點對YOLOv7的如何改進進行詳細的介紹,目的是為了給那些搞科研的同學(xué)需要創(chuàng)新點或者搞工程

    2024年02月08日
    瀏覽(17)
  • 深度學(xué)習(xí)模型量化、剪枝、壓縮

    深度學(xué)習(xí)模型量化、剪枝、壓縮

    fp16是指采用2字節(jié)(16位)進行編碼存儲的一種數(shù)據(jù)類型; fp32是指采用4字節(jié)(32位); fp16 和 fp32 相比對訓(xùn)練的優(yōu)化: 1. 內(nèi)存占用減少 :應(yīng)用fp16內(nèi)存占用比原來更小,可以設(shè)置更大的batch_size 2. 加速計算 :加速計算只在最近的一些新gpu中,這一塊我還沒有體驗到好處...有論文指出

    2024年02月16日
    瀏覽(50)
  • LLMs開源模型們的分布式訓(xùn)練和量化

    LLMs開源模型們的分布式訓(xùn)練和量化

    前一篇博文整理了: LLMs開源模型們和數(shù)據(jù)集簡介 這篇博文主要整理一下目前流行的訓(xùn)練方法和量化。 (圖自Towards a Unified View of Parameter-Efficient Transfer Learning) 使通用LLMs適應(yīng)下游任務(wù)的最常見方法是微調(diào)所有模型參數(shù)或微調(diào)尾層參數(shù)(Freeze)。然而這會導(dǎo)致每個任務(wù)都有一

    2024年02月07日
    瀏覽(50)
  • 【Transformer論文】CMKD:用于音頻分類的基于 CNN/Transformer 的跨模型知識蒸餾

    文獻題目:CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification 文獻時間:2022 音頻分類是一個活躍的研究領(lǐng)域,具有廣泛的應(yīng)用。 在過去十年中,卷積神經(jīng)網(wǎng)絡(luò) (CNN) 已成為端到端音頻分類模型的事實上的標準構(gòu)建塊。 最近,僅基于自注意力機制(如音頻頻譜

    2023年04月17日
    瀏覽(25)
  • 基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型,使用pruning剪枝技術(shù)來對模型進行輕量化處理,探索不同剪枝水平下模型性能影響

    基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型,使用pruning剪枝技術(shù)來對模型進行輕量化處理,探索不同剪枝水平下模型性能影響

    今天有點時間就想著之前遺留的一個問題正好拿過來做一下看看,主要的目的就是想要對訓(xùn)練好的目標檢測模型進行剪枝處理,這里就以茶葉嫩芽檢測數(shù)據(jù)場景為例了,在我前面的博文中已經(jīng)有過相關(guān)的實踐介紹了,感興趣的話可以自行移步閱讀即可: 《融合CBAM注意力機制

    2024年02月12日
    瀏覽(20)
  • 基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型,使用pruning剪枝技術(shù)來對模型進行輕量化處理,探索不同剪枝水平下模型性能影響【續(xù)】

    基于YOLOv5n/s/m不同參數(shù)量級模型開發(fā)構(gòu)建茶葉嫩芽檢測識別模型,使用pruning剪枝技術(shù)來對模型進行輕量化處理,探索不同剪枝水平下模型性能影響【續(xù)】

    這里主要是前一篇博文的后續(xù)內(nèi)容,簡單回顧一下:本文選取了n/s/m三款不同量級的模型來依次構(gòu)建訓(xùn)練模型,所有的參數(shù)保持同樣的設(shè)置,之后探索在不同剪枝處理操作下的性能影響。 在上一篇博文中保持30的剪枝程度得到的效果還是比較理想的。這里進行的是分別進行6

    2024年02月12日
    瀏覽(21)
  • LLMs之ChatGLM2:ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-t

    LLMs之ChatGLM2:ChatGLM2-6B本地部署之單機推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限資源下高效微調(diào)(全參/P-tuning v2)、模型評估和推理之圖文教程之詳細攻略 目錄 一、配置基礎(chǔ)環(huán)境及其注意事項 第一步、檢測軟硬件環(huán)境

    2024年02月07日
    瀏覽(29)
  • 模型優(yōu)化之模型剪枝

    模型優(yōu)化之模型剪枝

    一、概述 模型剪枝按照結(jié)構(gòu)劃分,主要包括結(jié)構(gòu)化剪枝和非結(jié)構(gòu)化剪枝: (1)結(jié)構(gòu)化剪枝:剪掉神經(jīng)元節(jié)點之間的不重要的連接。相當于把權(quán)重矩陣中的單個權(quán)重值設(shè)置為0。 (2)非結(jié)構(gòu)化剪枝:把權(quán)重矩陣中某個神經(jīng)元節(jié)點去掉,則和神經(jīng)元相連接的突觸也要全部去除。

    2024年02月14日
    瀏覽(13)
  • yolov5剪枝與知識蒸餾【附代碼】

    剪枝和知識蒸餾均屬于模型輕量化設(shè)計,剪枝是將已有網(wǎng)絡(luò)通過剪枝的手段得到輕量化網(wǎng)絡(luò),可分為 非結(jié)構(gòu)化剪枝 和 結(jié)構(gòu)化剪 ,該技術(shù) 可以免去人為設(shè)計輕量網(wǎng)絡(luò) ,而是通過計算各個權(quán)重或者通道的貢獻度大小,剪去貢獻度小的權(quán)重或通道,再 經(jīng)過微調(diào)訓(xùn)練恢復(fù)精度 ,

    2024年02月05日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包