国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strike id="nr1d9"><tfoot id="nr1d9"><legend id="nr1d9"></legend></tfoot></strike>

<ul id="nr1d9"><delect id="nr1d9"></delect></ul>

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)

2年前作者：十有久誠分類：Toy博客閱讀(25)違法舉報

這篇具有很好參考價值的文章主要介紹了論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

摘要

提高幾乎所有機(jī)器學(xué)習(xí)算法性能的一種非常簡單的方法是在相同的數(shù)據(jù)上訓(xùn)練許多不同的模型，然后對它們的預(yù)測進(jìn)行平均[3]。不幸的是，使用整個模型集合進(jìn)行預(yù)測是很麻煩的，并且可能在計算上過于昂貴，無法部署到大量用戶，特別是如果單個模型是大型神經(jīng)網(wǎng)絡(luò)。Caruana和他的合作者[1]已經(jīng)證明，可以將集成中的知識壓縮到一個更容易部署的單一模型中，并且我們使用不同的壓縮技術(shù)進(jìn)一步開發(fā)了這種方法。我們在MNIST上取得了一些令人驚訝的結(jié)果，并且我們表明，通過將模型集合中的知識提取到單個模型中，我們可以顯著改善大量使用的商業(yè)系統(tǒng)的聲學(xué)模型。我們還介紹了一種由一個或多個完整模型和許多專業(yè)模型組成的新型集成，這些模型學(xué)習(xí)區(qū)分完整模型所混淆的細(xì)粒度類。與混合專家不同，這些專家模型可以快速并行地訓(xùn)練。

介紹

許多昆蟲都有一個幼蟲形態(tài)，它最擅長從環(huán)境中獲取能量和營養(yǎng)，而一個完全不同的成蟲形態(tài)，它最擅長于旅行和繁殖的不同需求。在大規(guī)模機(jī)器學(xué)習(xí)中，我們通常在訓(xùn)練階段和部署階段使用非常相似的模型，盡管它們的要求非常不同:對于語音和對象識別等任務(wù)，訓(xùn)練必須從非常大的、高度冗余的數(shù)據(jù)集中提取結(jié)構(gòu)，但它不需要實(shí)時操作，它可以使用大量的計算量。

然而，部署到大量用戶時，對延遲和計算資源的要求要嚴(yán)格得多。與昆蟲的類比表明，如果能更容易地從數(shù)據(jù)中提取結(jié)構(gòu)，我們應(yīng)該愿意訓(xùn)練非常繁瑣的模型。繁瑣的模型可以是單獨(dú)訓(xùn)練的模型的集合，也可以是使用dropout等非常強(qiáng)的正則化器訓(xùn)練的單個非常大的模型[9]。一旦繁瑣的模型得到訓(xùn)練，我們就可以使用另一種訓(xùn)練，我們稱之為“蒸餾”，將知識從繁瑣的模型轉(zhuǎn)移到更適合部署的小模型中。這種策略的一個版本已經(jīng)由Rich Caruana和他的合作者開創(chuàng)[1]。在他們的重要論文中，他們令人信服地證明了由大量模型集合獲得的知識可以轉(zhuǎn)移到單個小模型中。

一個概念上的障礙可能阻礙了對這種非常有前途的方法進(jìn)行更多的研究，那就是我們傾向于用學(xué)習(xí)到的參數(shù)值來識別訓(xùn)練模型中的知識，這使得我們很難看到如何在保持相同知識的情況下改變模型的形式。一種更抽象的知識觀點(diǎn)，將其從任何特定實(shí)例中解放出來，即它是一種可學(xué)習(xí)的從輸入向量到輸出向量的映射。對于學(xué)習(xí)區(qū)分大量類別的繁瑣模型，正常的訓(xùn)練目標(biāo)是最大化正確答案的平均對數(shù)概率，但學(xué)習(xí)的副作用是訓(xùn)練模型為所有不正確答案分配概率，即使這些概率非常小，其中一些概率也比其他概率大得多。錯誤答案的相對概率告訴我們很多關(guān)于這個繁瑣的模型是如何泛化的。例如，寶馬的圖像可能只有很小的機(jī)會被誤認(rèn)為是垃圾車，但這種錯誤仍然比將其誤認(rèn)為胡蘿卜的可能性高很多倍。

人們普遍認(rèn)為，用于訓(xùn)練的目標(biāo)函數(shù)應(yīng)該盡可能地反映用戶的真實(shí)目標(biāo)。盡管如此，當(dāng)真正的目標(biāo)是很好地泛化到新數(shù)據(jù)時，通常訓(xùn)練模型來優(yōu)化訓(xùn)練數(shù)據(jù)的性能。顯然，訓(xùn)練模型更好地泛化，但這需要關(guān)于正確泛化方法的信息，而這些信息通常是不可用的。然而，當(dāng)我們將知識從一個大模型提煉成一個小模型時，我們可以訓(xùn)練小模型以與大模型相同的方式進(jìn)行泛化。如果繁瑣的模型泛化得很好，例如，它是不同模型的大集合的平均值，那么以相同方式訓(xùn)練泛化的小模型通常會比在用于訓(xùn)練集合的相同訓(xùn)練集上以正常方式訓(xùn)練的小模型在測試數(shù)據(jù)上做得更好。

將繁瑣模型的泛化能力轉(zhuǎn)移到小模型上的一個顯而易見的方法是將繁瑣模型產(chǎn)生的類概率作為訓(xùn)練小模型的“軟目標(biāo)”。對于這個遷移階段，我們可以使用相同的訓(xùn)練集或單獨(dú)的“遷移”集。

當(dāng)繁瑣的模型是由許多簡單模型組成的大集合時，我們可以使用單個預(yù)測分布的算術(shù)或幾何平均值作為軟目標(biāo)。當(dāng)軟目標(biāo)具有高熵時，每個訓(xùn)練案例提供的信息量比硬目標(biāo)大得多，訓(xùn)練案例之間的梯度方差也小得多，因此小模型通?？梢栽诒仍挤爆嵞Ｐ蜕俚枚嗟臄?shù)據(jù)上進(jìn)行訓(xùn)練，并使用更高的學(xué)習(xí)率。

對于像MNIST這樣的任務(wù)，繁瑣的模型幾乎總是產(chǎn)生非常高置信度的正確答案，關(guān)于學(xué)習(xí)函數(shù)的大部分信息存在于軟目標(biāo)中非常小的概率比率中。例如，一個版本的2可能有的概率是3,
的概率是7，而另一個版本可能是相反的。這是有價值的信息，它定義了數(shù)據(jù)的豐富相似性結(jié)構(gòu)(即，它表示哪些2看起來像3，哪些看起來像7)，但它在傳遞階段對交叉熵成本函數(shù)的影響很小，因為概率非常接近于零。

Caruana和他的合作者通過使用logits(最終softmax的輸入)而不是softmax產(chǎn)生的概率作為學(xué)習(xí)小模型的目標(biāo)來規(guī)避這個問題，他們最小化了繁瑣模型產(chǎn)生的logits和小模型產(chǎn)生的logits之間的平方差。我們更通用的解決方案，稱為“蒸餾”，是提高最終軟最大值的溫度，直到繁瑣的模型產(chǎn)生合適的軟目標(biāo)集。然后，我們在訓(xùn)練小模型時使用相同的高溫來匹配這些軟目標(biāo)。稍后我們將說明，匹配繁瑣模型的對數(shù)實(shí)際上是蒸餾的一種特殊情況。

用于訓(xùn)練小模型的轉(zhuǎn)移集可以完全由未標(biāo)記的數(shù)據(jù)組成[1]，或者我們可以使用原始訓(xùn)練集。我們發(fā)現(xiàn)，使用原始的訓(xùn)練集效果很好，特別是如果我們在目標(biāo)函數(shù)中添加一個小項，可以鼓勵小模型預(yù)測真實(shí)目標(biāo)，并匹配繁瑣模型提供的軟目標(biāo)。

通常，小模型不能完全匹配軟目標(biāo)，在正確答案的方向上犯錯誤是有幫助的。

蒸餾

神經(jīng)網(wǎng)絡(luò)通常通過使用“softmax”輸出層來產(chǎn)生類概率，該輸出層通過將與其他logit進(jìn)行比較，將為每個類計算的logit轉(zhuǎn)換為概率。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

T是溫度，通常設(shè)為1。使用更高的T值會產(chǎn)生更柔和的類概率分布。

在最簡單的蒸餾形式中，通過在轉(zhuǎn)移集上訓(xùn)練知識，并對轉(zhuǎn)移集中的每個情況使用軟目標(biāo)分布，將知識轉(zhuǎn)移到蒸餾模型中，該轉(zhuǎn)移集中使用具有高溫軟最大值的繁瑣模型產(chǎn)生的軟目標(biāo)分布。在訓(xùn)練蒸餾模型時使用相同的高溫，但在訓(xùn)練完成后，它使用的溫度為1。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

當(dāng)所有或部分轉(zhuǎn)移集的正確標(biāo)簽已知時，可以通過訓(xùn)練蒸餾模型來產(chǎn)生正確的標(biāo)簽來顯著改進(jìn)該方法。一種方法是使用正確的標(biāo)簽來修改軟目標(biāo)，但我們發(fā)現(xiàn)更好的方法是簡單地使用兩個不同目標(biāo)函數(shù)的加權(quán)平均值。第一個目標(biāo)函數(shù)是與軟目標(biāo)的交叉熵，該交叉熵是在蒸餾模型的軟最大值中使用與從繁瑣模型生成軟目標(biāo)相同的高溫來計算的。第二個目標(biāo)函數(shù)是帶有正確標(biāo)簽的交叉熵。這是在蒸餾模型的softmax中使用完全相同的logits計算的，但溫度為1。我們發(fā)現(xiàn)，在第二個目標(biāo)函數(shù)上使用相當(dāng)?shù)偷臋?quán)重通常可以獲得最佳結(jié)果。由于軟目標(biāo)產(chǎn)生的梯度大小為，因此在使用硬目標(biāo)和軟目標(biāo)時，將它們乘以是很重要的。這確保了在使用元參數(shù)進(jìn)行實(shí)驗時，如果用于蒸餾的溫度發(fā)生變化，則硬目標(biāo)和軟目標(biāo)的相對貢獻(xiàn)大致保持不變。

匹配邏輯是蒸餾的一種特殊情況

傳遞集中的每一種情況都相對于蒸餾模型的每一個logit貢獻(xiàn)了一個交叉熵梯度。如果繁瑣模型的logits?產(chǎn)生軟目標(biāo)概率，并且遷移訓(xùn)練在溫度T下進(jìn)行，則該梯度為:

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

如果溫度比對數(shù)的大小高，我們可以近似:

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

如果我們現(xiàn)在假設(shè)每個轉(zhuǎn)移情況的對數(shù)分別為零，那么, Eq. 3化簡為:

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

因此，在高溫極限下，蒸餾相當(dāng)于最小化，前提是每個轉(zhuǎn)移情況的對數(shù)分別為零。在較低的溫度下，蒸餾很少注意匹配比平均值負(fù)得多的對數(shù)。這是潛在的優(yōu)勢，因為這些邏輯幾乎完全不受用于訓(xùn)練繁瑣模型的成本函數(shù)的約束，因此它們可能非常嘈雜。另一方面，非常負(fù)的對數(shù)可以傳達(dá)關(guān)于繁瑣模型所獲得的知識的有用信息。這些影響中哪一個占主導(dǎo)地位是一個經(jīng)驗問題。我們表明，當(dāng)蒸餾模型太小而無法捕獲繁瑣模型中的所有知識時，中間溫度效果最好，這強(qiáng)烈表明忽略大的負(fù)對數(shù)可能是有幫助的。

MNIST的初步實(shí)驗

為了了解蒸餾的效果如何，我們在所有60,000個訓(xùn)練案例上訓(xùn)練了一個具有兩個隱藏層的大型神經(jīng)網(wǎng)絡(luò)，包含1200個整流線性隱藏單元。使用dropout和權(quán)重約束對網(wǎng)絡(luò)進(jìn)行強(qiáng)正則化，如[5]所述。Dropout可以看作是一種訓(xùn)練共享權(quán)重的指數(shù)級大模型集合的方法。此外，輸入圖像為在任何方向上抖動最多兩個像素。該網(wǎng)絡(luò)實(shí)現(xiàn)了67個測試誤差，而具有兩個隱藏層(800個校正線性隱藏單元)且未進(jìn)行正則化的較小網(wǎng)絡(luò)實(shí)現(xiàn)了146個誤差。但是，如果僅僅通過增加在20℃溫度下匹配大網(wǎng)產(chǎn)生的軟目標(biāo)的額外任務(wù)來正則化較小的網(wǎng)，它將獲得74個測試誤差。這表明軟目標(biāo)可以將大量知識轉(zhuǎn)移到蒸餾模型中，包括從翻譯的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的關(guān)于如何泛化的知識，即使轉(zhuǎn)移集不包含任何翻譯。

當(dāng)蒸餾網(wǎng)的兩個隱藏層中每層都有300個或更多的單位時，所有溫度高于8度的結(jié)果都相當(dāng)相似。但是，當(dāng)從根本上減少到每層30個單位時，溫度范圍在2.5到4之間的效果明顯優(yōu)于更高或更低的溫度。

然后，我們嘗試從轉(zhuǎn)移集中刪除數(shù)字3的所有示例。因此，從蒸餾模型的角度來看，3是一個從未見過的神話數(shù)字。盡管如此，蒸餾模型只產(chǎn)生206個測試錯誤，其中133個是在測試集中的1010個3上。大多數(shù)錯誤是由于3類的學(xué)習(xí)偏差太低造成的。如果這個偏差增加3.5(優(yōu)化測試集上的整體性能)，則蒸餾模型產(chǎn)生109個錯誤，其中14個是3。因此，在正確的偏差下，盡管在訓(xùn)練中從未看到過3，但蒸餾模型的測試3的正確率為98.6%。如果遷移集只包含訓(xùn)練集中的7和8，則蒸餾模型的測試誤差為47.3%，但當(dāng)將7和8的偏差減少7.6以優(yōu)化測試性能時，測試誤差降至13.2%。

語音識別實(shí)驗

在本節(jié)中，我們研究了用于自動語音識別(ASR)的集成深度神經(jīng)網(wǎng)絡(luò)(DNN)聲學(xué)模型的效果。我們表明，我們在本文中提出的蒸餾策略達(dá)到了將模型集合提煉成單個模型的預(yù)期效果，該模型的工作效果明顯優(yōu)于直接從相同訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的相同大小的模型。

最先進(jìn)的ASR系統(tǒng)目前使用dnn將從波形中導(dǎo)出的特征(短)時間上下文映射到隱馬爾可夫模型(HMM)離散狀態(tài)上的概率分布[4]。更具體地說，DNN每次在三部手機(jī)狀態(tài)的集群上產(chǎn)生一個概率分布，然后解碼器在HMM狀態(tài)中找到一條路徑，這是使用高概率狀態(tài)和產(chǎn)生在語言模型下可能的轉(zhuǎn)錄之間的最佳折衷。

雖然有可能(也是可取的)以這樣一種方式訓(xùn)練DNN，即通過邊緣化所有可能的路徑來考慮解碼器(以及語言模型)，但通常訓(xùn)練DNN通過(局部)最小化網(wǎng)絡(luò)預(yù)測與每個觀測值的基本真實(shí)狀態(tài)序列強(qiáng)制對齊所給出的標(biāo)簽之間的交叉熵來執(zhí)行逐幀分類:

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

其中θ是聲學(xué)模型P的參數(shù)，該模型將時間t,的聲學(xué)觀測映射到概率，“正確”HMM狀態(tài)，這是通過與正確的單詞序列強(qiáng)制對齊來確定的。采用分布式隨機(jī)梯度下降法對模型進(jìn)行訓(xùn)練。

我們使用具有8個隱藏層的架構(gòu)，每個隱藏層包含2560個整流線性單元和一個具有14,000個標(biāo)簽(HMM目標(biāo))的最終softmax層。輸入是26幀40 mel比例濾波器組系數(shù)，每幀提前10ms，我們預(yù)測了第21幀的HMM狀態(tài)。參數(shù)總數(shù)約為85M。這是Android語音搜索使用的聲學(xué)模型的一個稍微過時的版本，應(yīng)該被認(rèn)為是一個非常強(qiáng)大的基線。為了訓(xùn)練DNN聲學(xué)模型，我們使用了大約2000小時的英語口語數(shù)據(jù)，這產(chǎn)生了大約700M個訓(xùn)練樣本。該系統(tǒng)在我們的開發(fā)集上實(shí)現(xiàn)了58.9%的幀準(zhǔn)確率和10.9%的單詞錯誤率。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表1:框架分類精度和WER，顯示蒸餾的單個模型的性能與用于創(chuàng)建軟目標(biāo)的10個模型的平均預(yù)測一樣好。

結(jié)果

我們訓(xùn)練了10個獨(dú)立的模型來預(yù)測，使用完全相同的架構(gòu)和訓(xùn)練程序作為基線。用不同的初始參數(shù)值隨機(jī)初始化模型，我們發(fā)現(xiàn)這在訓(xùn)練模型中產(chǎn)生了足夠的多樣性，使得集合的平均預(yù)測明顯優(yōu)于單個模型。我們已經(jīng)探索了通過改變每個模型看到的數(shù)據(jù)集來增加模型的多樣性，但是我們發(fā)現(xiàn)這不會顯著改變我們的結(jié)果，所以我們選擇了更簡單的方法。對于蒸餾，我們嘗試了[1,2,5,10]的溫度，并對硬目標(biāo)的交叉熵使用了0.5的相對權(quán)重，其中粗體表示表1中使用的最佳值。

表1顯示，實(shí)際上，我們的蒸餾方法能夠從訓(xùn)練集中提取更多有用的信息，而不是簡單地使用硬標(biāo)簽來訓(xùn)練單個模型。使用10個模型的集合所獲得的幀分類精度提高的80%以上被轉(zhuǎn)移到蒸餾模型上，這與我們在MNIST上的初步實(shí)驗中觀察到的改進(jìn)相似。由于目標(biāo)函數(shù)不匹配，集成對WER的最終目標(biāo)(在23k個單詞的測試集上)給出了較小的改進(jìn)，但同樣，集成實(shí)現(xiàn)的WER改進(jìn)被轉(zhuǎn)移到蒸餾模型上。

我們最近意識到通過匹配已經(jīng)訓(xùn)練好的大型模型的類概率來學(xué)習(xí)小型聲學(xué)模型的相關(guān)工作[8]。然而，他們使用大型未標(biāo)記數(shù)據(jù)集在溫度為1的情況下進(jìn)行蒸餾，他們的最佳蒸餾模型僅將小模型的錯誤率降低了28%，當(dāng)它們都使用硬標(biāo)簽訓(xùn)練時，大小模型的錯誤率之間的差距。

在非常大的數(shù)據(jù)集上訓(xùn)練專家團(tuán)隊

訓(xùn)練模型集合是利用并行計算的一種非常簡單的方法，并且通常認(rèn)為在測試時集合需要太多計算的反對意見可以通過使用蒸餾來處理。然而，對于集成還有另一個重要的反對意見:如果單個模型是大型神經(jīng)網(wǎng)絡(luò)，并且數(shù)據(jù)集非常大，那么即使很容易并行化，訓(xùn)練時所需的計算量也會過多。

在本節(jié)中，我們給出了這樣一個數(shù)據(jù)集的示例，并展示了如何學(xué)習(xí)專家模型(每個模型專注于類的不同可混淆子集)可以減少學(xué)習(xí)集成所需的總計算量。專注于細(xì)粒度區(qū)分的專家的主要問題是他們很容易過擬合，我們描述了如何通過使用軟目標(biāo)來防止這種過擬合。

JFT數(shù)據(jù)集

JFT是一個內(nèi)部的谷歌數(shù)據(jù)集，它有1億個帶有15000個標(biāo)簽的帶標(biāo)簽的圖像。當(dāng)我們做這項工作時，Google的JFT基線模型是一個深度卷積神經(jīng)網(wǎng)絡(luò)[7]，它已經(jīng)在大量核心上使用異步隨機(jī)梯度下降進(jìn)行了大約六個月的訓(xùn)練。該訓(xùn)練使用了兩種類型的并行性[2]。首先，神經(jīng)網(wǎng)絡(luò)的許多副本運(yùn)行在不同的核心集上，處理來自訓(xùn)練集的不同小批量。每個副本計算當(dāng)前mini-batch上的平均梯度，并將該梯度發(fā)送給分片參數(shù)服務(wù)器，該服務(wù)器將返回參數(shù)的新值。這些新值反映了自上次向副本發(fā)送參數(shù)以來參數(shù)服務(wù)器接收到的所有梯度。其次，通過在每個核心上放置不同的神經(jīng)元子集，每個副本分布在多個核心上。集成訓(xùn)練是第三種可以包裝的并行性其他兩種類型，但前提是有更多的內(nèi)核可用。等待幾年時間來訓(xùn)練一個模型集合是不可能的，所以我們需要一種更快的方法來改進(jìn)基線模型。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表2:由我們的協(xié)方差矩陣聚類算法計算的聚類的示例類

專家模式

當(dāng)類的數(shù)量非常大時，將麻煩的模型作為一個集成是有意義的，它包含一個在所有數(shù)據(jù)上訓(xùn)練的通才模型和許多“專家”模型，每個模型都是在高度豐富的數(shù)據(jù)上訓(xùn)練的，這些數(shù)據(jù)來自一個非常容易混淆的類子集(如不同類型的蘑菇)。通過將所有它不關(guān)心的類組合到一個垃圾箱類中，可以使這種類型的專家的softmax更小。

為了減少過擬合并分擔(dān)學(xué)習(xí)低級特征檢測器的工作，每個專家模型都使用通才模型的權(quán)重初始化。然后，通過訓(xùn)練專家，將其一半的樣本來自其特殊子集，另一半從訓(xùn)練集的剩余部分隨機(jī)抽樣，對這些權(quán)重進(jìn)行稍微修改。訓(xùn)練后，我們可以通過將垃圾箱類的logit增加到專家類的過采樣比例的log來糾正有偏差的訓(xùn)練集。

為專家分配課程

為了為專家導(dǎo)出對象類別的分組，我們決定將重點(diǎn)放在我們整個網(wǎng)絡(luò)經(jīng)?；煜念悇e上。盡管我們可以計算混淆矩陣并將其用作查找此類聚類的方法，但我們選擇了一種更簡單的方法，該方法不需要真實(shí)標(biāo)簽來構(gòu)建聚類。

特別是，我們將聚類算法應(yīng)用于通才模型預(yù)測的協(xié)方差矩陣，以便經(jīng)常一起預(yù)測的一組類

將用作我們的一個專家模型m的目標(biāo)。我們對協(xié)方差矩陣的列應(yīng)用了K-means算法的在線版本，并獲得了合理的聚類(見表2)。我們嘗試了幾種聚類算法，產(chǎn)生了類似的結(jié)果。

與專家團(tuán)隊一起進(jìn)行推理

在研究當(dāng)專家模型被提取時會發(fā)生什么之前，我們想看看包含專家的集成執(zhí)行得有多好。除了專家模型，我們總是有一個通才模型，這樣我們就可以處理沒有專家的類，這樣我們就可以決定使用哪個專家。給定一個輸入圖像x，我們分兩步進(jìn)行top-1分類:

步驟1:對于每個測試用例，我們根據(jù)通才模型找到n個最可能的類。

稱這組類為k。在我們的實(shí)驗中，我們使用n = 1。

步驟2:然后我們?nèi)∷械膶＜夷Ｐ蚼，其可混淆類的特殊子集S m與k有一個非空相交，并將其稱為專家的活動集(注意該集可能是空的)。然后求出所有類的完整概率分布q。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

式中KL表示KL散度，表示專家模型或通才全模型的概率分布。分布是m的所有專業(yè)類加上一個垃圾桶類的分布，所以當(dāng)計算它的KL散度時從滿q分布我們把滿q分布分配給m的垃圾桶中所有類的所有概率相加。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表4:JFT測試集上覆蓋正確類別的專家模型的準(zhǔn)確率提高排名前1。

Eq. 5沒有一般的封閉形式解，盡管當(dāng)所有模型為每個類別產(chǎn)生單個概率時，解是算術(shù)或幾何平均值，這取決于我們是使用KL(p, q)還是KL(q, p))。我們參數(shù)化q = softmax (z)(其中T = 1)，并使用梯度下降來優(yōu)化logits z w.r.t. eq. 5。請注意，必須對每個圖像執(zhí)行此優(yōu)化。

結(jié)果

從經(jīng)過訓(xùn)練的基線完整網(wǎng)絡(luò)開始，專家們的訓(xùn)練速度非常快(幾天而不是JFT的幾周)。此外，所有的專家都是完全獨(dú)立訓(xùn)練的。表3顯示了基線系統(tǒng)和結(jié)合專家模型的基線系統(tǒng)的絕對測試精度。有了61個專業(yè)模型，總體測試精度相對提高了4.4%。我們還報告了條件測試精度，這是只考慮屬于專家類的示例的精度，并將我們的預(yù)測限制在類的子集上。

對于JFT專家實(shí)驗，我們訓(xùn)練了61個專家模型，每個模型有300個類(加上垃圾箱類)。因為專家的類集合不是不相交的，我們經(jīng)常有多個專家覆蓋一個特定的圖像類。表4顯示了測試集示例的數(shù)量，使用專家時在位置1正確的示例數(shù)量的變化，以及JFT數(shù)據(jù)集的top1精度的相對改進(jìn)百分比，這些百分比按涵蓋類的專家數(shù)量進(jìn)行細(xì)分。由于訓(xùn)練獨(dú)立的專家模型非常容易并行化，所以當(dāng)我們有更多的專家覆蓋一個特定的類時，準(zhǔn)確度的提高會更大，這一普遍趨勢讓我們感到鼓舞。

作為正則化器的軟目標(biāo)

我們關(guān)于使用軟目標(biāo)而不是硬目標(biāo)的一個主要主張是，軟目標(biāo)可以攜帶許多有用的信息，這些信息不可能被單個硬目標(biāo)編碼。在本節(jié)中，我們通過使用更少的數(shù)據(jù)來擬合前面描述的基線語音模型的85M參數(shù)來證明這是一個非常大的影響。表5顯示，僅使用3%的數(shù)據(jù)(約20M例)，使用硬目標(biāo)訓(xùn)練基線模型會導(dǎo)致嚴(yán)重的過擬合(我們提前停止，因為準(zhǔn)確率在達(dá)到44.5%后急劇下降)，而使用軟目標(biāo)訓(xùn)練的相同模型能夠恢復(fù)整個訓(xùn)練集中幾乎所有的信息(約2%)。更值得注意的是，我們不需要提前停止:具有軟目標(biāo)的系統(tǒng)簡單地“收斂”到57%。這表明，軟目標(biāo)是一種非常有效的方式，可以將在所有數(shù)據(jù)上訓(xùn)練的模型發(fā)現(xiàn)的規(guī)律傳遞給另一個模型。

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表5:軟目標(biāo)允許新模型僅從訓(xùn)練集的3%進(jìn)行良好的泛化。通過對完整訓(xùn)練集的訓(xùn)練得到軟目標(biāo)。

使用軟目標(biāo)來防止專家過度擬合

我們在JFT數(shù)據(jù)集上的實(shí)驗中使用的專家將他們所有的非專業(yè)類折疊到一個垃圾箱類中。如果我們允許專家對所有類別都有一個完整的軟最大值，可能會有比使用早期停止更好的方法來防止他們過擬合。專家接受的是在其特殊課程中高度豐富的數(shù)據(jù)培訓(xùn)。這意味著它的訓(xùn)練集的有效大小要小得多，并且在它的特殊類上有很強(qiáng)的過擬合傾向。這個問題不能通過把專家類做得更小來解決，因為那樣我們就失去了從對所有非專業(yè)類建模中獲得的非常有用的轉(zhuǎn)移效應(yīng)。

我們使用3%的語音數(shù)據(jù)進(jìn)行的實(shí)驗強(qiáng)烈表明，如果用通才的權(quán)重初始化一個專家，除了用硬目標(biāo)訓(xùn)練它之外，我們還可以用軟目標(biāo)訓(xùn)練它，使它保留幾乎所有關(guān)于非特殊類的知識。軟目標(biāo)可以由通才提供。我們目前正在探索這種方法。

與專家混合的關(guān)系

使用在數(shù)據(jù)子集上訓(xùn)練的專家與使用門控網(wǎng)絡(luò)來計算將每個示例分配給每個專家的概率的專家混合[6]有一些相似之處。在專家學(xué)習(xí)處理分配給他們的示例的同時，門控網(wǎng)絡(luò)正在學(xué)習(xí)根據(jù)專家對該示例的相對判別性能選擇將每個示例分配給哪些專家。使用專家的判別性能來確定學(xué)習(xí)分配比簡單地將輸入向量聚類并為每個聚類分配專家要好得多，但它使訓(xùn)練難以并行化:首先，每個專家的加權(quán)訓(xùn)練集以一種依賴于所有其他專家的方式不斷變化;其次，門控網(wǎng)絡(luò)需要比較不同專家在同一示例上的表現(xiàn)，以知道如何修改其分配概率。這些困難意味著專家組合很少被用于可能最有益的領(lǐng)域:包含明顯不同子集的龐大數(shù)據(jù)集的任務(wù)。

對多個專家進(jìn)行并行培訓(xùn)要容易得多。我們首先訓(xùn)練一個通才模型，然后使用混淆矩陣來定義訓(xùn)練專家的子集。一旦定義了這些子集，專家就可以完全獨(dú)立地進(jìn)行訓(xùn)練。在測試時，我們可以使用通才模型的預(yù)測來決定哪些專家是相關(guān)的，只有這些專家需要運(yùn)行。

討論

我們已經(jīng)證明，對于將知識從集成或從大型高度正則化模型轉(zhuǎn)移到較小的蒸餾模型，蒸餾工作非常有效。在MNIST上，即使用于訓(xùn)練蒸餾模型的轉(zhuǎn)移集缺乏一個或多個類的任何示例，蒸餾也能非常好地工作。對于一個深度聲學(xué)模型(Android語音搜索使用的模型)，我們已經(jīng)證明，幾乎所有通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)集合實(shí)現(xiàn)的改進(jìn)都可以被提煉成一個相同大小的神經(jīng)網(wǎng)絡(luò)，這更容易部署。

對于真正的大神經(jīng)網(wǎng)絡(luò)，甚至訓(xùn)練一個完整的集合都是不可行的，但我們已經(jīng)證明，通過學(xué)習(xí)大量的專業(yè)網(wǎng)絡(luò)，可以顯著提高訓(xùn)練了很長時間的單個真正的大網(wǎng)絡(luò)的性能，每個專業(yè)網(wǎng)絡(luò)都學(xué)會了在高度混淆的集群中區(qū)分類別。我們還沒有證明，我們可以把專家們的知識提煉成一張大網(wǎng)。

論文下載(NIPS 2014)

https://arxiv.org/abs/1503.02531

??Distilling the Knowledge in a Neural Network.pdf

論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí) 文章來源地址http://www.zghlxwxcb.cn/news/detail-833511.html

到了這里，關(guān)于論文解讀：在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

經(jīng)典神經(jīng)網(wǎng)絡(luò)論文超詳細(xì)解讀（八）——ResNeXt學(xué)習(xí)筆記（翻譯＋精讀＋代碼復(fù)現(xiàn)）
今天我們一起來學(xué)習(xí)何愷明大神的又一經(jīng)典之作：? ResNeXt（《Aggregated Residual Transformations for Deep Neural Networks》）。這個網(wǎng)絡(luò)可以被解釋為 VGG、ResNet?和 Inception 的結(jié)合體，它通過重復(fù)多個block（如在 VGG 中）塊組成，每個block塊聚合了多種轉(zhuǎn)換（如 Inception），同時考慮到跨層
2024年02月03日
瀏覽(30)
論文筆記（五）FWENet：基于SAR圖像的洪水水體提取深度卷積神經(jīng)網(wǎng)絡(luò)（CVPR）
FWENet: a deep convolutional neural network for flood water body extraction based on SAR images 作者：Jingming Wang, Shixin Wang, Futao Wang, Yi Zhou, Zhenqing Wang, Jianwan Ji, Yibing Xiong Qing Zhao 期刊：Internation Journal of Digital Earth 日期：2022 ：深度學(xué)習(xí)；洪水水體提??；SAR；鄱陽湖原文：https://doi.org/10.1080
2024年02月10日
瀏覽(24)
高光譜分類論文解讀分享之基于形態(tài)卷積神經(jīng)網(wǎng)絡(luò)的高光譜影像分類
Morphological Convolutional Neural Networks for Hyperspectral Image Classification Swalpa Kumar Roy; Ranjan Mondal; Mercedes E. Paoletti; Juan M. Haut; Antonio Plaza Classification, convolutional neural networks (CNNs), deep learning (DL), hyperspectral images (HSIs), latent feature space transfer, morphological transformations. 在卷積中嵌入形態(tài)學(xué)運(yùn)算
2024年01月17日
瀏覽(16)
論文閱讀：圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理的研究綜述
論文鏈接：圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理的研究綜述（1）知識圖譜以節(jié)點(diǎn)和邊的圖結(jié)構(gòu)存儲數(shù)據(jù)，GNN可以有效整合知識圖譜結(jié)構(gòu)特征及屬性特征，通過節(jié)點(diǎn)的領(lǐng)域信息聚合并更新節(jié)點(diǎn) ，利用其強(qiáng)大的信息傳播能力學(xué)習(xí)數(shù)據(jù)間的語義關(guān)系和潛在信息，使其可以很好地學(xué)習(xí)
2024年04月10日
瀏覽(25)
深度學(xué)習(xí)——神經(jīng)網(wǎng)絡(luò)參數(shù)的保存和提取
2024年02月15日
瀏覽(20)
卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的操作是怎樣完成的
。卷積神經(jīng)網(wǎng)絡(luò)有以下幾種應(yīng)用可供研究：1、基于卷積網(wǎng)絡(luò)的形狀識別物體的形狀是人的視覺系統(tǒng)分析和識別物體的基礎(chǔ)，幾何形狀是物體的本質(zhì)特征的表現(xiàn)，并具有平移、縮放和旋轉(zhuǎn)不變等特點(diǎn)，所以在模式識別領(lǐng)域，對于形狀的分析和識別具有十分重要的意義，而二維
2024年02月07日
瀏覽(18)
輕量級卷積神經(jīng)網(wǎng)絡(luò)MobileNets詳細(xì)解讀
隨著深度學(xué)習(xí)的飛速發(fā)展，計算機(jī)視覺領(lǐng)域內(nèi)的卷積神經(jīng)網(wǎng)絡(luò)種類也層出不窮。從1998年的LeNet網(wǎng)絡(luò)到2012引起深度學(xué)習(xí)熱潮年的AlexNet網(wǎng)絡(luò)，再到2014年的VGG網(wǎng)絡(luò)，再到后來2015的ResNet網(wǎng)絡(luò)，深度學(xué)習(xí)網(wǎng)絡(luò)在圖像處理上表現(xiàn)得越來越好。但是這些網(wǎng)絡(luò)都在不斷增加網(wǎng)絡(luò)深度和寬度來
2024年02月04日
瀏覽(24)
bp神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)建模論文,關(guān)于bp神經(jīng)網(wǎng)絡(luò)的論文
最初是86年，Rumelhart和McCelland領(lǐng)導(dǎo)的科學(xué)家小組在《平行分布式處理》一書中，對具有非線性連續(xù)變換函數(shù)的多層感知器的誤差反向傳播BP算法進(jìn)行了詳盡的分析，實(shí)現(xiàn)了Minsky關(guān)于多層網(wǎng)絡(luò)的設(shè)想。一般引用的話，無需引用第一篇，只需引用介紹BP網(wǎng)絡(luò)的文獻(xiàn)即可。最開始的文
2024年02月13日
瀏覽(19)
【圖神經(jīng)網(wǎng)絡(luò)】GNNExplainer代碼解讀及其PyG實(shí)現(xiàn)
接上一篇博客圖神經(jīng)網(wǎng)絡(luò)的可解釋性方法及GNNexplainer代碼示例，我們這里簡單分析GNNExplainer源碼，并用PyTorch Geometric手動實(shí)現(xiàn)。 GNNExplainer的源碼地址：https://github.com/RexYing/gnn-model-explainer （1）安裝：推薦使用python3.7以及創(chuàng)建虛擬環(huán)境：（2）訓(xùn)練一個GCN模型其中EXPERIMENT_NAM
2024年02月12日
瀏覽(19)
【論文筆記】神經(jīng)網(wǎng)絡(luò)壓縮調(diào)研
?小模型，參數(shù)少，容易將ML模型部署在資源有限的設(shè)備上，但是直接訓(xùn)練一個好的小網(wǎng)絡(luò)比較困難基于參數(shù)修建和共享的方法針對模型參數(shù)的冗余性試圖取出冗余和不重要的項基于低秩因子分解的技術(shù)使用矩陣/張量分解來估計深度學(xué)習(xí)模型的信息參數(shù) 基于傳輸/緊湊卷積
2024年02月14日
瀏覽(22)

<ul id="olp96"></ul>