国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

知識(shí)蒸餾(Knowledge Distillation)

2年前作者：夕陽之后的黑夜分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了知識(shí)蒸餾(Knowledge Distillation)。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

知識(shí)蒸餾,深度學(xué)習(xí),人工智能 ?論文：[1503.02531] Distilling the Knowledge in a Neural Network (arxiv.org)

知識(shí)蒸餾是一種模型壓縮方法，是一種基于“教師-學(xué)生網(wǎng)絡(luò)思想”的訓(xùn)練方式，由于其簡單，有效，并且已經(jīng)在工業(yè)界被廣泛應(yīng)用。

知識(shí)蒸餾使用的是Teacher—Student模型，其中teacher是“知識(shí)”的輸出者，student是“知識(shí)”的接受者。知識(shí)蒸餾的過程分為2個(gè)階段:

????????①原始模型訓(xùn)練: 訓(xùn)練"Teacher模型", 簡稱為Net-T，它的特點(diǎn)是模型相對復(fù)雜，也可以由多個(gè)分別訓(xùn)練的模型集成而成。我們對"Teacher模型"不作任何關(guān)于模型架構(gòu)、參數(shù)量、是否集成方面的限制，唯一的要求就是，對于輸入X, 其都能輸出Y，其中Y經(jīng)過softmax的映射，輸出值對應(yīng)相應(yīng)類別的概率值。

????????②精簡模型訓(xùn)練: 訓(xùn)練"Student模型", 簡稱為Net-S，它是參數(shù)量較小、模型結(jié)構(gòu)相對簡單的單模型。同樣的，對于輸入X，其都能輸出Y，Y經(jīng)過softmax映射后同樣能輸出對應(yīng)相應(yīng)類別的概率值。在本論文中，作者將問題限定在分類問題下，或者其他本質(zhì)上屬于分類問題的問題，該類問題的共同點(diǎn)是模型最后會(huì)有一個(gè)softmax層，其輸出值對應(yīng)了相應(yīng)類別的概率值。

現(xiàn)實(shí)中，由于我們不可能收集到某問題的所有數(shù)據(jù)來作為訓(xùn)練數(shù)據(jù)，并且新數(shù)據(jù)總是在源源不斷的產(chǎn)生，因此我們只能退而求其次，訓(xùn)練目標(biāo)變成在已有的訓(xùn)練數(shù)據(jù)集上建模輸入和輸出之間的關(guān)系。由于訓(xùn)練數(shù)據(jù)集是對真實(shí)數(shù)據(jù)分布情況的采樣，訓(xùn)練數(shù)據(jù)集上的最優(yōu)解往往會(huì)多少偏離真正的最優(yōu)解。

而在知識(shí)蒸餾時(shí)，由于我們已經(jīng)有了一個(gè)泛化能力較強(qiáng)的Net-T，我們在利用Net-T來蒸餾訓(xùn)練Net-S時(shí)，可以直接讓Net-S去學(xué)習(xí)Net-T的泛化能力。一個(gè)很直白且高效的遷移泛化能力的方法就是使用softmax層輸出的類別的概率來作為“soft target”。

? ? ? ? ①傳統(tǒng)training過程(hard targets): 對ground truth求極大似然

? ? ? ? ②KD的training過程(soft targets): 用large model的class probabilities作為soft targets

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

?例子：

在MNIST手寫數(shù)字識(shí)別任務(wù)中

假設(shè)某個(gè)輸入的“2”更加形似"3"，softmax的輸出值中"3"對應(yīng)的概率為0.1，而其他負(fù)標(biāo)簽對應(yīng)的值都很小，而另一個(gè)"2"更加形似"7"，"7"對應(yīng)的概率為0.1。這兩個(gè)"2"對應(yīng)的hard target的值是相同的，但是它們的soft target卻是不同的，由此我們可見soft target蘊(yùn)含著比hard target多的信息。并且soft target分布的熵相對高時(shí)，其soft target蘊(yùn)含的知識(shí)就更豐富。

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

?兩個(gè)”2“的hard target相同而soft target不同。

這就解釋了為什么通過蒸餾的方法訓(xùn)練出的Net-S相比使用完全相同的模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)只使用hard target的訓(xùn)練方法得到的模型，擁有更好的泛化能力。

溫度T

把其他類別的可能性放大，把他們的相對大小充分暴露出來，讓學(xué)生網(wǎng)絡(luò)更加強(qiáng)烈地知道這些非類別的信息。當(dāng)T=1時(shí)，與之前沒有變化；當(dāng)T越大，曲線的波峰就會(huì)越來越平滑。

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

? 知識(shí)蒸餾,深度學(xué)習(xí),人工智能

?知識(shí)蒸餾的過程：

第一步：有一個(gè)已經(jīng)訓(xùn)練好的Teacher model，把很多數(shù)據(jù)喂給Teacher model，再把數(shù)據(jù)喂給（未訓(xùn)練/半成品）Student model，兩個(gè)都是在T=t時(shí)經(jīng)過Softmax，然后計(jì)算這兩個(gè)的損失函數(shù)值，讓它們兩個(gè)越接近越好，學(xué)生在模擬老師的預(yù)測結(jié)果。

第二步：Student model在T=1情況下經(jīng)過softmax操作，把預(yù)測結(jié)果hard prediction和真實(shí)數(shù)據(jù)的結(jié)果hard label進(jìn)行求損失值，希望它們兩個(gè)越接近越好。

總結(jié)：Student model(T=t)與Teacher model(T=t)的預(yù)測結(jié)果越來越接近；Student model(T=1)的預(yù)測結(jié)果與數(shù)據(jù)結(jié)果(標(biāo)準(zhǔn)答案)越來越接近。

Loss = k1*distillation Loss+k2*student Loss。(加權(quán)求和)

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

知識(shí)蒸餾,深度學(xué)習(xí),人工智能

????? 知識(shí)蒸餾,深度學(xué)習(xí),人工智能

在使用Student model時(shí)只需要輸入數(shù)據(jù)就行，不需要T，因?yàn)槟Ｐ偷膮?shù)已經(jīng)訓(xùn)練完成了，最后只需要經(jīng)過基礎(chǔ)softmax操作得到最終結(jié)果。知識(shí)蒸餾,深度學(xué)習(xí),人工智能

?實(shí)驗(yàn)結(jié)果：

使用MNIST數(shù)據(jù)集訓(xùn)練Teacher model，把MNIST數(shù)據(jù)集中去除”3“相關(guān)的所有數(shù)據(jù)集來訓(xùn)練Student model，實(shí)驗(yàn)結(jié)果證明，經(jīng)過知識(shí)蒸餾后，沒有學(xué)習(xí)過”3“的Student model可以識(shí)別出”3“。

Soft targets可以僅僅使用3%的訓(xùn)練集來訓(xùn)練并達(dá)到近似Teacher model的效果。

知識(shí)蒸餾的應(yīng)用場景：

①模型壓縮

②優(yōu)化訓(xùn)練，防止過擬合

③無限大、無監(jiān)督數(shù)據(jù)集的數(shù)據(jù)挖掘

④少樣本、零樣本學(xué)習(xí)文章來源地址http://www.zghlxwxcb.cn/news/detail-740747.html

到了這里，關(guān)于知識(shí)蒸餾(Knowledge Distillation)的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深度學(xué)習(xí)概念（術(shù)語）：Fine-tuning、Knowledge Distillation, etc
這里的相關(guān)概念都是基于已有預(yù)訓(xùn)練模型，就是模型本身已經(jīng)訓(xùn)練好，有一定泛化能力。需要“再加工”滿足別的任務(wù)需求。進(jìn)入后GPT時(shí)代，對模型的Fine-tuning也將成為趨勢，借此機(jī)會(huì)，我來科普下相關(guān)概念。有些人認(rèn)為微調(diào)和訓(xùn)練沒有區(qū)別，都是訓(xùn)練模型，但是微調(diào)是在原
2024年02月09日
瀏覽(61)
人工智能前沿研究綜述：對比學(xué)習(xí)、遷移學(xué)習(xí)、知識(shí)蒸餾的探索與未來展望
導(dǎo)言 ????????隨著人工智能領(lǐng)域的不斷發(fā)展，對比學(xué)習(xí)、遷移學(xué)習(xí)和知識(shí)蒸餾等研究方向成為熱門話題。本文將全面探討這些前沿研究的發(fā)展、面臨的問題、解決過程，以及未來可能的研究趨勢。 1. 對比學(xué)習(xí)的發(fā)展與挑戰(zhàn)?????????????? 1.1 發(fā)展歷程???????? 演
2024年01月22日
瀏覽(98)
擴(kuò)散模型相關(guān)論文閱讀，擴(kuò)散模型和知識(shí)蒸餾的結(jié)合提升預(yù)測速度：Progressive Distillation for Fast Sampling of Diffusion Models
谷歌research的成果，ICLR 2022 https://arxiv.org/abs/2202.00512 tenserflow官方開源代碼： https://github.com/google-research/google-research/tree/master/diffusion_distillation pytorch非官方代碼：https://github.com/lucidrains/imagen-pytorch 1.擴(kuò)散模型雖然取得了很好的效果，但是預(yù)測速度慢。 2.作者提出了一種逐步蒸餾
2024年02月16日
瀏覽(20)
人工智能大模型技術(shù)基礎(chǔ)系列之：模型蒸餾與知識(shí)蒸餾
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 模型蒸餾（Model Distillation）是將一個(gè)復(fù)雜的大型機(jī)器學(xué)習(xí)模型壓縮到更小且效率更高的模型上的一種技術(shù)。它可以讓用戶獲得更高質(zhì)量的模型，同時(shí)降低計(jì)算資源占用和部署成本。目前國內(nèi)外多種公司在使用模型蒸餾技術(shù)，如阿里巴巴在內(nèi)部業(yè)
2024年02月05日
瀏覽(95)
[讀論文][backbone]Knowledge Diffusion for Distillation
DiffKD 摘要 The representation gap between teacher and student is an emerging topic in knowledge distillation (KD). To reduce the gap and improve the performance, current methods often resort to complicated training schemes, loss functions, and feature alignments, which are task-specific and feature-specific. In this paper, we state that the essence of the
2024年02月08日
瀏覽(32)
【論文閱讀】SKDBERT: Compressing BERT via Stochastic Knowledge Distillation
2022-2023年論文系列之模型輕量化和推理加速通過Connected Papers搜索引用PaBEE/DeeBERT/FastBERT的最新工作，涵蓋：模型推理加速邊緣設(shè)備應(yīng)用生成模型 BERT模型知識(shí)蒸餾 SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference SKDBERT: Compressing BERT via Stochastic Knowledge Di
2024年02月12日
瀏覽(25)
【深度學(xué)習(xí)之模型優(yōu)化】模型剪枝、模型量化、知識(shí)蒸餾概述
? ? ? ??模型部署優(yōu)化這個(gè)方向其實(shí)比較寬泛。從模型完成訓(xùn)練，到最終將模型部署到實(shí)際硬件上，整個(gè)流程中會(huì)涉及到很多不同層面的工作，每一個(gè)環(huán)節(jié)對技術(shù)點(diǎn)的要求也不盡相同。但本質(zhì)的工作無疑是通過減小模型大小，提高推理速度等，使得模型能夠成功部署在各個(gè)硬
2024年01月23日
瀏覽(17)
論文筆記|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers
這篇論文的題目是用于小樣本Transformers的監(jiān)督遮掩知識(shí)蒸餾論文接收： CVPR 2023 論文地址： https://arxiv.org/pdf/2303.15466.pdf 代碼鏈接： https://github.com/HL-hanlin/SMKD 1.ViT在小樣本學(xué)習(xí)（只有少量標(biāo)記數(shù)據(jù)的小型數(shù)據(jù)集）中往往會(huì) 過擬合，并且由于缺乏歸納偏置而導(dǎo)致性能較差；
2024年02月06日
瀏覽(27)
知識(shí)蒸餾學(xué)習(xí)記錄
最近在學(xué)習(xí)降噪處理不良天氣的算法過程中，接觸到了知識(shí)蒸餾，該算法作為一個(gè)深度學(xué)習(xí)通用算法，不僅廣泛應(yīng)用在自然語言處理方面，在計(jì)算機(jī)視覺等領(lǐng)域也廣受追捧。簡單來說，知識(shí)蒸餾就是將一個(gè)大的教師網(wǎng)絡(luò)萃取到一個(gè)小的學(xué)生網(wǎng)絡(luò)中，即完成一個(gè)知識(shí)遷移的過程
2024年02月11日
瀏覽(18)
知識(shí)蒸餾學(xué)習(xí)
知識(shí)蒸餾 ----教師和學(xué)生模型：將已訓(xùn)練完善的模型作為教師模型，通過控制“溫度”從模型的輸出結(jié)果中“蒸餾”出“知識(shí)”用于學(xué)生模型的訓(xùn)練，并希望輕量級的學(xué)生模型能夠?qū)W到教師模型的“知識(shí)”，達(dá)到和教師模型相同的表現(xiàn)。本質(zhì)上屬于遷移學(xué)習(xí) 優(yōu)點(diǎn)： 1.節(jié)省成
2024年02月09日
瀏覽(17)