国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)

這篇具有很好參考價值的文章主要介紹了論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

摘要

提高幾乎所有機(jī)器學(xué)習(xí)算法性能的一種非常簡單的方法是在相同的數(shù)據(jù)上訓(xùn)練許多不同的模型,然后對它們的預(yù)測進(jìn)行平均[3]。不幸的是,使用整個模型集合進(jìn)行預(yù)測是很麻煩的,并且可能在計算上過于昂貴,無法部署到大量用戶,特別是如果單個模型是大型神經(jīng)網(wǎng)絡(luò)。Caruana和他的合作者[1]已經(jīng)證明,可以將集成中的知識壓縮到一個更容易部署的單一模型中,并且我們使用不同的壓縮技術(shù)進(jìn)一步開發(fā)了這種方法。我們在MNIST上取得了一些令人驚訝的結(jié)果,并且我們表明,通過將模型集合中的知識提取到單個模型中,我們可以顯著改善大量使用的商業(yè)系統(tǒng)的聲學(xué)模型。我們還介紹了一種由一個或多個完整模型和許多專業(yè)模型組成的新型集成,這些模型學(xué)習(xí)區(qū)分完整模型所混淆的細(xì)粒度類。與混合專家不同,這些專家模型可以快速并行地訓(xùn)練。

介紹

許多昆蟲都有一個幼蟲形態(tài),它最擅長從環(huán)境中獲取能量和營養(yǎng),而一個完全不同的成蟲形態(tài),它最擅長于旅行和繁殖的不同需求。在大規(guī)模機(jī)器學(xué)習(xí)中,我們通常在訓(xùn)練階段和部署階段使用非常相似的模型,盡管它們的要求非常不同:對于語音和對象識別等任務(wù),訓(xùn)練必須從非常大的、高度冗余的數(shù)據(jù)集中提取結(jié)構(gòu),但它不需要實(shí)時操作,它可以使用大量的計算量。

然而,部署到大量用戶時,對延遲和計算資源的要求要嚴(yán)格得多。與昆蟲的類比表明,如果能更容易地從數(shù)據(jù)中提取結(jié)構(gòu),我們應(yīng)該愿意訓(xùn)練非常繁瑣的模型。繁瑣的模型可以是單獨(dú)訓(xùn)練的模型的集合,也可以是使用dropout等非常強(qiáng)的正則化器訓(xùn)練的單個非常大的模型[9]。一旦繁瑣的模型得到訓(xùn)練,我們就可以使用另一種訓(xùn)練,我們稱之為“蒸餾”,將知識從繁瑣的模型轉(zhuǎn)移到更適合部署的小模型中。這種策略的一個版本已經(jīng)由Rich Caruana和他的合作者開創(chuàng)[1]。在他們的重要論文中,他們令人信服地證明了由大量模型集合獲得的知識可以轉(zhuǎn)移到單個小模型中。

一個概念上的障礙可能阻礙了對這種非常有前途的方法進(jìn)行更多的研究,那就是我們傾向于用學(xué)習(xí)到的參數(shù)值來識別訓(xùn)練模型中的知識,這使得我們很難看到如何在保持相同知識的情況下改變模型的形式。一種更抽象的知識觀點(diǎn),將其從任何特定實(shí)例中解放出來,即它是一種可學(xué)習(xí)的從輸入向量到輸出向量的映射。對于學(xué)習(xí)區(qū)分大量類別的繁瑣模型,正常的訓(xùn)練目標(biāo)是最大化正確答案的平均對數(shù)概率,但學(xué)習(xí)的副作用是訓(xùn)練模型為所有不正確答案分配概率,即使這些概率非常小,其中一些概率也比其他概率大得多。錯誤答案的相對概率告訴我們很多關(guān)于這個繁瑣的模型是如何泛化的。例如,寶馬的圖像可能只有很小的機(jī)會被誤認(rèn)為是垃圾車,但這種錯誤仍然比將其誤認(rèn)為胡蘿卜的可能性高很多倍。

人們普遍認(rèn)為,用于訓(xùn)練的目標(biāo)函數(shù)應(yīng)該盡可能地反映用戶的真實(shí)目標(biāo)。盡管如此,當(dāng)真正的目標(biāo)是很好地泛化到新數(shù)據(jù)時,通常訓(xùn)練模型來優(yōu)化訓(xùn)練數(shù)據(jù)的性能。顯然,訓(xùn)練模型更好地泛化,但這需要關(guān)于正確泛化方法的信息,而這些信息通常是不可用的。然而,當(dāng)我們將知識從一個大模型提煉成一個小模型時,我們可以訓(xùn)練小模型以與大模型相同的方式進(jìn)行泛化。如果繁瑣的模型泛化得很好,例如,它是不同模型的大集合的平均值,那么以相同方式訓(xùn)練泛化的小模型通常會比在用于訓(xùn)練集合的相同訓(xùn)練集上以正常方式訓(xùn)練的小模型在測試數(shù)據(jù)上做得更好。

將繁瑣模型的泛化能力轉(zhuǎn)移到小模型上的一個顯而易見的方法是將繁瑣模型產(chǎn)生的類概率作為訓(xùn)練小模型的“軟目標(biāo)”。對于這個遷移階段,我們可以使用相同的訓(xùn)練集或單獨(dú)的“遷移”集。

當(dāng)繁瑣的模型是由許多簡單模型組成的大集合時,我們可以使用單個預(yù)測分布的算術(shù)或幾何平均值作為軟目標(biāo)。當(dāng)軟目標(biāo)具有高熵時,每個訓(xùn)練案例提供的信息量比硬目標(biāo)大得多,訓(xùn)練案例之間的梯度方差也小得多,因此小模型通??梢栽诒仍挤爆嵞P蜕俚枚嗟臄?shù)據(jù)上進(jìn)行訓(xùn)練,并使用更高的學(xué)習(xí)率。

對于像MNIST這樣的任務(wù),繁瑣的模型幾乎總是產(chǎn)生非常高置信度的正確答案,關(guān)于學(xué)習(xí)函數(shù)的大部分信息存在于軟目標(biāo)中非常小的概率比率中。例如,一個版本的2可能有的概率是3,
的概率是7,而另一個版本可能是相反的。這是有價值的信息,它定義了數(shù)據(jù)的豐富相似性結(jié)構(gòu)(即,它表示哪些2看起來像3,哪些看起來像7),但它在傳遞階段對交叉熵成本函數(shù)的影響很小,因為概率非常接近于零。

Caruana和他的合作者通過使用logits(最終softmax的輸入)而不是softmax產(chǎn)生的概率作為學(xué)習(xí)小模型的目標(biāo)來規(guī)避這個問題,他們最小化了繁瑣模型產(chǎn)生的logits和小模型產(chǎn)生的logits之間的平方差。我們更通用的解決方案,稱為“蒸餾”,是提高最終軟最大值的溫度,直到繁瑣的模型產(chǎn)生合適的軟目標(biāo)集。然后,我們在訓(xùn)練小模型時使用相同的高溫來匹配這些軟目標(biāo)。稍后我們將說明,匹配繁瑣模型的對數(shù)實(shí)際上是蒸餾的一種特殊情況。

用于訓(xùn)練小模型的轉(zhuǎn)移集可以完全由未標(biāo)記的數(shù)據(jù)組成[1],或者我們可以使用原始訓(xùn)練集。我們發(fā)現(xiàn),使用原始的訓(xùn)練集效果很好,特別是如果我們在目標(biāo)函數(shù)中添加一個小項,可以鼓勵小模型預(yù)測真實(shí)目標(biāo),并匹配繁瑣模型提供的軟目標(biāo)。

通常,小模型不能完全匹配軟目標(biāo),在正確答案的方向上犯錯誤是有幫助的。

蒸餾

神經(jīng)網(wǎng)絡(luò)通常通過使用“softmax”輸出層來產(chǎn)生類概率,該輸出層通過將與其他logit進(jìn)行比較,將為每個類計算的logit轉(zhuǎn)換為概率。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

T是溫度,通常設(shè)為1。使用更高的T值會產(chǎn)生更柔和的類概率分布。

在最簡單的蒸餾形式中,通過在轉(zhuǎn)移集上訓(xùn)練知識,并對轉(zhuǎn)移集中的每個情況使用軟目標(biāo)分布,將知識轉(zhuǎn)移到蒸餾模型中,該轉(zhuǎn)移集中使用具有高溫軟最大值的繁瑣模型產(chǎn)生的軟目標(biāo)分布。在訓(xùn)練蒸餾模型時使用相同的高溫,但在訓(xùn)練完成后,它使用的溫度為1。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

當(dāng)所有或部分轉(zhuǎn)移集的正確標(biāo)簽已知時,可以通過訓(xùn)練蒸餾模型來產(chǎn)生正確的標(biāo)簽來顯著改進(jìn)該方法。一種方法是使用正確的標(biāo)簽來修改軟目標(biāo),但我們發(fā)現(xiàn)更好的方法是簡單地使用兩個不同目標(biāo)函數(shù)的加權(quán)平均值。第一個目標(biāo)函數(shù)是與軟目標(biāo)的交叉熵,該交叉熵是在蒸餾模型的軟最大值中使用與從繁瑣模型生成軟目標(biāo)相同的高溫來計算的。第二個目標(biāo)函數(shù)是帶有正確標(biāo)簽的交叉熵。這是在蒸餾模型的softmax中使用完全相同的logits計算的,但溫度為1。我們發(fā)現(xiàn),在第二個目標(biāo)函數(shù)上使用相當(dāng)?shù)偷臋?quán)重通常可以獲得最佳結(jié)果。由于軟目標(biāo)產(chǎn)生的梯度大小為,因此在使用硬目標(biāo)和軟目標(biāo)時,將它們乘以是很重要的。這確保了在使用元參數(shù)進(jìn)行實(shí)驗時,如果用于蒸餾的溫度發(fā)生變化,則硬目標(biāo)和軟目標(biāo)的相對貢獻(xiàn)大致保持不變。

匹配邏輯是蒸餾的一種特殊情況

傳遞集中的每一種情況都相對于蒸餾模型的每一個logit貢獻(xiàn)了一個交叉熵梯度。如果繁瑣模型的logits?產(chǎn)生軟目標(biāo)概率,并且遷移訓(xùn)練在溫度T下進(jìn)行,則該梯度為:

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

如果溫度比對數(shù)的大小高,我們可以近似:

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

如果我們現(xiàn)在假設(shè)每個轉(zhuǎn)移情況的對數(shù)分別為零,那么, Eq. 3化簡為:

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

因此,在高溫極限下,蒸餾相當(dāng)于最小化,前提是每個轉(zhuǎn)移情況的對數(shù)分別為零。在較低的溫度下,蒸餾很少注意匹配比平均值負(fù)得多的對數(shù)。這是潛在的優(yōu)勢,因為這些邏輯幾乎完全不受用于訓(xùn)練繁瑣模型的成本函數(shù)的約束,因此它們可能非常嘈雜。另一方面,非常負(fù)的對數(shù)可以傳達(dá)關(guān)于繁瑣模型所獲得的知識的有用信息。這些影響中哪一個占主導(dǎo)地位是一個經(jīng)驗問題。我們表明,當(dāng)蒸餾模型太小而無法捕獲繁瑣模型中的所有知識時,中間溫度效果最好,這強(qiáng)烈表明忽略大的負(fù)對數(shù)可能是有幫助的。

MNIST的初步實(shí)驗

為了了解蒸餾的效果如何,我們在所有60,000個訓(xùn)練案例上訓(xùn)練了一個具有兩個隱藏層的大型神經(jīng)網(wǎng)絡(luò),包含1200個整流線性隱藏單元。使用dropout和權(quán)重約束對網(wǎng)絡(luò)進(jìn)行強(qiáng)正則化,如[5]所述。Dropout可以看作是一種訓(xùn)練共享權(quán)重的指數(shù)級大模型集合的方法。此外,輸入圖像為在任何方向上抖動最多兩個像素。該網(wǎng)絡(luò)實(shí)現(xiàn)了67個測試誤差,而具有兩個隱藏層(800個校正線性隱藏單元)且未進(jìn)行正則化的較小網(wǎng)絡(luò)實(shí)現(xiàn)了146個誤差。但是,如果僅僅通過增加在20℃溫度下匹配大網(wǎng)產(chǎn)生的軟目標(biāo)的額外任務(wù)來正則化較小的網(wǎng),它將獲得74個測試誤差。這表明軟目標(biāo)可以將大量知識轉(zhuǎn)移到蒸餾模型中,包括從翻譯的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的關(guān)于如何泛化的知識,即使轉(zhuǎn)移集不包含任何翻譯。

當(dāng)蒸餾網(wǎng)的兩個隱藏層中每層都有300個或更多的單位時,所有溫度高于8度的結(jié)果都相當(dāng)相似。但是,當(dāng)從根本上減少到每層30個單位時,溫度范圍在2.5到4之間的效果明顯優(yōu)于更高或更低的溫度。

然后,我們嘗試從轉(zhuǎn)移集中刪除數(shù)字3的所有示例。因此,從蒸餾模型的角度來看,3是一個從未見過的神話數(shù)字。盡管如此,蒸餾模型只產(chǎn)生206個測試錯誤,其中133個是在測試集中的1010個3上。大多數(shù)錯誤是由于3類的學(xué)習(xí)偏差太低造成的。如果這個偏差增加3.5(優(yōu)化測試集上的整體性能),則蒸餾模型產(chǎn)生109個錯誤,其中14個是3。因此,在正確的偏差下,盡管在訓(xùn)練中從未看到過3,但蒸餾模型的測試3的正確率為98.6%。如果遷移集只包含訓(xùn)練集中的7和8,則蒸餾模型的測試誤差為47.3%,但當(dāng)將7和8的偏差減少7.6以優(yōu)化測試性能時,測試誤差降至13.2%。

語音識別實(shí)驗

在本節(jié)中,我們研究了用于自動語音識別(ASR)的集成深度神經(jīng)網(wǎng)絡(luò)(DNN)聲學(xué)模型的效果。我們表明,我們在本文中提出的蒸餾策略達(dá)到了將模型集合提煉成單個模型的預(yù)期效果,該模型的工作效果明顯優(yōu)于直接從相同訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的相同大小的模型。

最先進(jìn)的ASR系統(tǒng)目前使用dnn將從波形中導(dǎo)出的特征(短)時間上下文映射到隱馬爾可夫模型(HMM)離散狀態(tài)上的概率分布[4]。更具體地說,DNN每次在三部手機(jī)狀態(tài)的集群上產(chǎn)生一個概率分布,然后解碼器在HMM狀態(tài)中找到一條路徑,這是使用高概率狀態(tài)和產(chǎn)生在語言模型下可能的轉(zhuǎn)錄之間的最佳折衷。

雖然有可能(也是可取的)以這樣一種方式訓(xùn)練DNN,即通過邊緣化所有可能的路徑來考慮解碼器(以及語言模型),但通常訓(xùn)練DNN通過(局部)最小化網(wǎng)絡(luò)預(yù)測與每個觀測值的基本真實(shí)狀態(tài)序列強(qiáng)制對齊所給出的標(biāo)簽之間的交叉熵來執(zhí)行逐幀分類:

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

其中θ是聲學(xué)模型P的參數(shù),該模型將時間t,的聲學(xué)觀測映射到概率,“正確”HMM狀態(tài),這是通過與正確的單詞序列強(qiáng)制對齊來確定的。采用分布式隨機(jī)梯度下降法對模型進(jìn)行訓(xùn)練。

我們使用具有8個隱藏層的架構(gòu),每個隱藏層包含2560個整流線性單元和一個具有14,000個標(biāo)簽(HMM目標(biāo))的最終softmax層。輸入是26幀40 mel比例濾波器組系數(shù),每幀提前10ms,我們預(yù)測了第21幀的HMM狀態(tài)。參數(shù)總數(shù)約為85M。這是Android語音搜索使用的聲學(xué)模型的一個稍微過時的版本,應(yīng)該被認(rèn)為是一個非常強(qiáng)大的基線。為了訓(xùn)練DNN聲學(xué)模型,我們使用了大約2000小時的英語口語數(shù)據(jù),這產(chǎn)生了大約700M個訓(xùn)練樣本。該系統(tǒng)在我們的開發(fā)集上實(shí)現(xiàn)了58.9%的幀準(zhǔn)確率和10.9%的單詞錯誤率。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表1:框架分類精度和WER,顯示蒸餾的單個模型的性能與用于創(chuàng)建軟目標(biāo)的10個模型的平均預(yù)測一樣好。

結(jié)果

我們訓(xùn)練了10個獨(dú)立的模型來預(yù)測,使用完全相同的架構(gòu)和訓(xùn)練程序作為基線。用不同的初始參數(shù)值隨機(jī)初始化模型,我們發(fā)現(xiàn)這在訓(xùn)練模型中產(chǎn)生了足夠的多樣性,使得集合的平均預(yù)測明顯優(yōu)于單個模型。我們已經(jīng)探索了通過改變每個模型看到的數(shù)據(jù)集來增加模型的多樣性,但是我們發(fā)現(xiàn)這不會顯著改變我們的結(jié)果,所以我們選擇了更簡單的方法。對于蒸餾,我們嘗試了[1,2,5,10]的溫度,并對硬目標(biāo)的交叉熵使用了0.5的相對權(quán)重,其中粗體表示表1中使用的最佳值。

表1顯示,實(shí)際上,我們的蒸餾方法能夠從訓(xùn)練集中提取更多有用的信息,而不是簡單地使用硬標(biāo)簽來訓(xùn)練單個模型。使用10個模型的集合所獲得的幀分類精度提高的80%以上被轉(zhuǎn)移到蒸餾模型上,這與我們在MNIST上的初步實(shí)驗中觀察到的改進(jìn)相似。由于目標(biāo)函數(shù)不匹配,集成對WER的最終目標(biāo)(在23k個單詞的測試集上)給出了較小的改進(jìn),但同樣,集成實(shí)現(xiàn)的WER改進(jìn)被轉(zhuǎn)移到蒸餾模型上。

我們最近意識到通過匹配已經(jīng)訓(xùn)練好的大型模型的類概率來學(xué)習(xí)小型聲學(xué)模型的相關(guān)工作[8]。然而,他們使用大型未標(biāo)記數(shù)據(jù)集在溫度為1的情況下進(jìn)行蒸餾,他們的最佳蒸餾模型僅將小模型的錯誤率降低了28%,當(dāng)它們都使用硬標(biāo)簽訓(xùn)練時,大小模型的錯誤率之間的差距。

在非常大的數(shù)據(jù)集上訓(xùn)練專家團(tuán)隊

訓(xùn)練模型集合是利用并行計算的一種非常簡單的方法,并且通常認(rèn)為在測試時集合需要太多計算的反對意見可以通過使用蒸餾來處理。然而,對于集成還有另一個重要的反對意見:如果單個模型是大型神經(jīng)網(wǎng)絡(luò),并且數(shù)據(jù)集非常大,那么即使很容易并行化,訓(xùn)練時所需的計算量也會過多。

在本節(jié)中,我們給出了這樣一個數(shù)據(jù)集的示例,并展示了如何學(xué)習(xí)專家模型(每個模型專注于類的不同可混淆子集)可以減少學(xué)習(xí)集成所需的總計算量。專注于細(xì)粒度區(qū)分的專家的主要問題是他們很容易過擬合,我們描述了如何通過使用軟目標(biāo)來防止這種過擬合。

JFT數(shù)據(jù)集

JFT是一個內(nèi)部的谷歌數(shù)據(jù)集,它有1億個帶有15000個標(biāo)簽的帶標(biāo)簽的圖像。當(dāng)我們做這項工作時,Google的JFT基線模型是一個深度卷積神經(jīng)網(wǎng)絡(luò)[7],它已經(jīng)在大量核心上使用異步隨機(jī)梯度下降進(jìn)行了大約六個月的訓(xùn)練。該訓(xùn)練使用了兩種類型的并行性[2]。首先,神經(jīng)網(wǎng)絡(luò)的許多副本運(yùn)行在不同的核心集上,處理來自訓(xùn)練集的不同小批量。每個副本計算當(dāng)前mini-batch上的平均梯度,并將該梯度發(fā)送給分片參數(shù)服務(wù)器,該服務(wù)器將返回參數(shù)的新值。這些新值反映了自上次向副本發(fā)送參數(shù)以來參數(shù)服務(wù)器接收到的所有梯度。其次,通過在每個核心上放置不同的神經(jīng)元子集,每個副本分布在多個核心上。集成訓(xùn)練是第三種可以包裝的并行性其他兩種類型,但前提是有更多的內(nèi)核可用。等待幾年時間來訓(xùn)練一個模型集合是不可能的,所以我們需要一種更快的方法來改進(jìn)基線模型。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表2:由我們的協(xié)方差矩陣聚類算法計算的聚類的示例類

專家模式

當(dāng)類的數(shù)量非常大時,將麻煩的模型作為一個集成是有意義的,它包含一個在所有數(shù)據(jù)上訓(xùn)練的通才模型和許多“專家”模型,每個模型都是在高度豐富的數(shù)據(jù)上訓(xùn)練的,這些數(shù)據(jù)來自一個非常容易混淆的類子集(如不同類型的蘑菇)。通過將所有它不關(guān)心的類組合到一個垃圾箱類中,可以使這種類型的專家的softmax更小。

為了減少過擬合并分擔(dān)學(xué)習(xí)低級特征檢測器的工作,每個專家模型都使用通才模型的權(quán)重初始化。然后,通過訓(xùn)練專家,將其一半的樣本來自其特殊子集,另一半從訓(xùn)練集的剩余部分隨機(jī)抽樣,對這些權(quán)重進(jìn)行稍微修改。訓(xùn)練后,我們可以通過將垃圾箱類的logit增加到專家類的過采樣比例的log來糾正有偏差的訓(xùn)練集。

為專家分配課程

為了為專家導(dǎo)出對象類別的分組,我們決定將重點(diǎn)放在我們整個網(wǎng)絡(luò)經(jīng)?;煜念悇e上。盡管我們可以計算混淆矩陣并將其用作查找此類聚類的方法,但我們選擇了一種更簡單的方法,該方法不需要真實(shí)標(biāo)簽來構(gòu)建聚類。

特別是,我們將聚類算法應(yīng)用于通才模型預(yù)測的協(xié)方差矩陣,以便經(jīng)常一起預(yù)測的一組類

將用作我們的一個專家模型m的目標(biāo)。我們對協(xié)方差矩陣的列應(yīng)用了K-means算法的在線版本,并獲得了合理的聚類(見表2)。我們嘗試了幾種聚類算法,產(chǎn)生了類似的結(jié)果。

與專家團(tuán)隊一起進(jìn)行推理

在研究當(dāng)專家模型被提取時會發(fā)生什么之前,我們想看看包含專家的集成執(zhí)行得有多好。除了專家模型,我們總是有一個通才模型,這樣我們就可以處理沒有專家的類,這樣我們就可以決定使用哪個專家。給定一個輸入圖像x,我們分兩步進(jìn)行top-1分類:

步驟1:對于每個測試用例,我們根據(jù)通才模型找到n個最可能的類。

稱這組類為k。在我們的實(shí)驗中,我們使用n = 1。

步驟2:然后我們?nèi)∷械膶<夷P蚼,其可混淆類的特殊子集S m與k有一個非空相交,并將其稱為專家的活動集(注意該集可能是空的)。然后求出所有類的完整概率分布q。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

式中KL表示KL散度,表示專家模型或通才全模型的概率分布。分布是m的所有專業(yè)類加上一個垃圾桶類的分布,所以當(dāng)計算它的KL散度時從滿q分布我們把滿q分布分配給m的垃圾桶中所有類的所有概率相加。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表4:JFT測試集上覆蓋正確類別的專家模型的準(zhǔn)確率提高排名前1。

Eq. 5沒有一般的封閉形式解,盡管當(dāng)所有模型為每個類別產(chǎn)生單個概率時,解是算術(shù)或幾何平均值,這取決于我們是使用KL(p, q)還是KL(q, p))。我們參數(shù)化q = softmax (z)(其中T = 1),并使用梯度下降來優(yōu)化logits z w.r.t. eq. 5。請注意,必須對每個圖像執(zhí)行此優(yōu)化。

結(jié)果

從經(jīng)過訓(xùn)練的基線完整網(wǎng)絡(luò)開始,專家們的訓(xùn)練速度非常快(幾天而不是JFT的幾周)。此外,所有的專家都是完全獨(dú)立訓(xùn)練的。表3顯示了基線系統(tǒng)和結(jié)合專家模型的基線系統(tǒng)的絕對測試精度。有了61個專業(yè)模型,總體測試精度相對提高了4.4%。我們還報告了條件測試精度,這是只考慮屬于專家類的示例的精度,并將我們的預(yù)測限制在類的子集上。

對于JFT專家實(shí)驗,我們訓(xùn)練了61個專家模型,每個模型有300個類(加上垃圾箱類)。因為專家的類集合不是不相交的,我們經(jīng)常有多個專家覆蓋一個特定的圖像類。表4顯示了測試集示例的數(shù)量,使用專家時在位置1正確的示例數(shù)量的變化,以及JFT數(shù)據(jù)集的top1精度的相對改進(jìn)百分比,這些百分比按涵蓋類的專家數(shù)量進(jìn)行細(xì)分。由于訓(xùn)練獨(dú)立的專家模型非常容易并行化,所以當(dāng)我們有更多的專家覆蓋一個特定的類時,準(zhǔn)確度的提高會更大,這一普遍趨勢讓我們感到鼓舞。

作為正則化器的軟目標(biāo)

我們關(guān)于使用軟目標(biāo)而不是硬目標(biāo)的一個主要主張是,軟目標(biāo)可以攜帶許多有用的信息,這些信息不可能被單個硬目標(biāo)編碼。在本節(jié)中,我們通過使用更少的數(shù)據(jù)來擬合前面描述的基線語音模型的85M參數(shù)來證明這是一個非常大的影響。表5顯示,僅使用3%的數(shù)據(jù)(約20M例),使用硬目標(biāo)訓(xùn)練基線模型會導(dǎo)致嚴(yán)重的過擬合(我們提前停止,因為準(zhǔn)確率在達(dá)到44.5%后急劇下降),而使用軟目標(biāo)訓(xùn)練的相同模型能夠恢復(fù)整個訓(xùn)練集中幾乎所有的信息(約2%)。更值得注意的是,我們不需要提前停止:具有軟目標(biāo)的系統(tǒng)簡單地“收斂”到57%。這表明,軟目標(biāo)是一種非常有效的方式,可以將在所有數(shù)據(jù)上訓(xùn)練的模型發(fā)現(xiàn)的規(guī)律傳遞給另一個模型。

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)

表5:軟目標(biāo)允許新模型僅從訓(xùn)練集的3%進(jìn)行良好的泛化。通過對完整訓(xùn)練集的訓(xùn)練得到軟目標(biāo)。

使用軟目標(biāo)來防止專家過度擬合

我們在JFT數(shù)據(jù)集上的實(shí)驗中使用的專家將他們所有的非專業(yè)類折疊到一個垃圾箱類中。如果我們允許專家對所有類別都有一個完整的軟最大值,可能會有比使用早期停止更好的方法來防止他們過擬合。專家接受的是在其特殊課程中高度豐富的數(shù)據(jù)培訓(xùn)。這意味著它的訓(xùn)練集的有效大小要小得多,并且在它的特殊類上有很強(qiáng)的過擬合傾向。這個問題不能通過把專家類做得更小來解決,因為那樣我們就失去了從對所有非專業(yè)類建模中獲得的非常有用的轉(zhuǎn)移效應(yīng)。

我們使用3%的語音數(shù)據(jù)進(jìn)行的實(shí)驗強(qiáng)烈表明,如果用通才的權(quán)重初始化一個專家,除了用硬目標(biāo)訓(xùn)練它之外,我們還可以用軟目標(biāo)訓(xùn)練它,使它保留幾乎所有關(guān)于非特殊類的知識。軟目標(biāo)可以由通才提供。我們目前正在探索這種方法。

與專家混合的關(guān)系

使用在數(shù)據(jù)子集上訓(xùn)練的專家與使用門控網(wǎng)絡(luò)來計算將每個示例分配給每個專家的概率的專家混合[6]有一些相似之處。在專家學(xué)習(xí)處理分配給他們的示例的同時,門控網(wǎng)絡(luò)正在學(xué)習(xí)根據(jù)專家對該示例的相對判別性能選擇將每個示例分配給哪些專家。使用專家的判別性能來確定學(xué)習(xí)分配比簡單地將輸入向量聚類并為每個聚類分配專家要好得多,但它使訓(xùn)練難以并行化:首先,每個專家的加權(quán)訓(xùn)練集以一種依賴于所有其他專家的方式不斷變化;其次,門控網(wǎng)絡(luò)需要比較不同專家在同一示例上的表現(xiàn),以知道如何修改其分配概率。這些困難意味著專家組合很少被用于可能最有益的領(lǐng)域:包含明顯不同子集的龐大數(shù)據(jù)集的任務(wù)。

對多個專家進(jìn)行并行培訓(xùn)要容易得多。我們首先訓(xùn)練一個通才模型,然后使用混淆矩陣來定義訓(xùn)練專家的子集。一旦定義了這些子集,專家就可以完全獨(dú)立地進(jìn)行訓(xùn)練。在測試時,我們可以使用通才模型的預(yù)測來決定哪些專家是相關(guān)的,只有這些專家需要運(yùn)行。

討論

我們已經(jīng)證明,對于將知識從集成或從大型高度正則化模型轉(zhuǎn)移到較小的蒸餾模型,蒸餾工作非常有效。在MNIST上,即使用于訓(xùn)練蒸餾模型的轉(zhuǎn)移集缺乏一個或多個類的任何示例,蒸餾也能非常好地工作。對于一個深度聲學(xué)模型(Android語音搜索使用的模型),我們已經(jīng)證明,幾乎所有通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)集合實(shí)現(xiàn)的改進(jìn)都可以被提煉成一個相同大小的神經(jīng)網(wǎng)絡(luò),這更容易部署。

對于真正的大神經(jīng)網(wǎng)絡(luò),甚至訓(xùn)練一個完整的集合都是不可行的,但我們已經(jīng)證明,通過學(xué)習(xí)大量的專業(yè)網(wǎng)絡(luò),可以顯著提高訓(xùn)練了很長時間的單個真正的大網(wǎng)絡(luò)的性能,每個專業(yè)網(wǎng)絡(luò)都學(xué)會了在高度混淆的集群中區(qū)分類別。我們還沒有證明,我們可以把專家們的知識提煉成一張大網(wǎng)。

論文下載(NIPS 2014)

https://arxiv.org/abs/1503.02531

??Distilling the Knowledge in a Neural Network.pdf

論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾),神經(jīng)網(wǎng)絡(luò),人工智能,深度學(xué)習(xí),知識蒸餾,機(jī)器學(xué)習(xí)文章來源地址http://www.zghlxwxcb.cn/news/detail-833511.html

到了這里,關(guān)于論文解讀:在神經(jīng)網(wǎng)絡(luò)中提取知識(知識蒸餾)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 經(jīng)典神經(jīng)網(wǎng)絡(luò)論文超詳細(xì)解讀(八)——ResNeXt學(xué)習(xí)筆記(翻譯+精讀+代碼復(fù)現(xiàn))

    經(jīng)典神經(jīng)網(wǎng)絡(luò)論文超詳細(xì)解讀(八)——ResNeXt學(xué)習(xí)筆記(翻譯+精讀+代碼復(fù)現(xiàn))

    今天我們一起來學(xué)習(xí)何愷明大神的又一經(jīng)典之作:? ResNeXt(《Aggregated Residual Transformations for Deep Neural Networks》) 。這個網(wǎng)絡(luò)可以被解釋為 VGG、ResNet?和 Inception 的結(jié)合體,它通過重復(fù)多個block(如在 VGG 中)塊組成,每個block塊聚合了多種轉(zhuǎn)換(如 Inception),同時考慮到跨層

    2024年02月03日
    瀏覽(30)
  • 論文筆記(五)FWENet:基于SAR圖像的洪水水體提取深度卷積神經(jīng)網(wǎng)絡(luò)(CVPR)

    論文筆記(五)FWENet:基于SAR圖像的洪水水體提取深度卷積神經(jīng)網(wǎng)絡(luò)(CVPR)

    FWENet: a deep convolutional neural network for flood water body extraction based on SAR images 作者:Jingming Wang, Shixin Wang, Futao Wang, Yi Zhou, Zhenqing Wang, Jianwan Ji, Yibing Xiong Qing Zhao 期刊:Internation Journal of Digital Earth 日期:2022 :深度學(xué)習(xí);洪水水體提??;SAR;鄱陽湖 原文:https://doi.org/10.1080

    2024年02月10日
    瀏覽(24)
  • 高光譜分類論文解讀分享之基于形態(tài)卷積神經(jīng)網(wǎng)絡(luò)的高光譜影像分類

    高光譜分類論文解讀分享之基于形態(tài)卷積神經(jīng)網(wǎng)絡(luò)的高光譜影像分類

    Morphological Convolutional Neural Networks for Hyperspectral Image Classification Swalpa Kumar Roy; Ranjan Mondal; Mercedes E. Paoletti; Juan M. Haut; Antonio Plaza Classification, convolutional neural networks (CNNs), deep learning (DL), hyperspectral images (HSIs), latent feature space transfer, morphological transformations. 在卷積中嵌入形態(tài)學(xué)運(yùn)算

    2024年01月17日
    瀏覽(16)
  • 論文閱讀:圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理的研究綜述

    論文閱讀:圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理的研究綜述

    論文鏈接:圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理的研究綜述 (1)知識圖譜以節(jié)點(diǎn)和邊的圖結(jié)構(gòu)存儲數(shù)據(jù),GNN可以 有效整合知識圖譜結(jié)構(gòu)特征及屬性特征 ,通過節(jié)點(diǎn)的 領(lǐng)域信息聚合并更新節(jié)點(diǎn) ,利用其強(qiáng)大的信息傳播能力學(xué)習(xí)數(shù)據(jù)間的語義關(guān)系和潛在信息,使其可以很好地學(xué)習(xí)

    2024年04月10日
    瀏覽(25)
  • 深度學(xué)習(xí)——神經(jīng)網(wǎng)絡(luò)參數(shù)的保存和提取
  • 卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的操作是怎樣完成的

    卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征的操作是怎樣完成的

    。 卷積神經(jīng)網(wǎng)絡(luò)有以下幾種應(yīng)用可供研究:1、基于卷積網(wǎng)絡(luò)的形狀識別物體的形狀是人的視覺系統(tǒng)分析和識別物體的基礎(chǔ),幾何形狀是物體的本質(zhì)特征的表現(xiàn),并具有平移、縮放和旋轉(zhuǎn)不變等特點(diǎn),所以在模式識別領(lǐng)域,對于形狀的分析和識別具有十分重要的意義,而二維

    2024年02月07日
    瀏覽(18)
  • 輕量級卷積神經(jīng)網(wǎng)絡(luò)MobileNets詳細(xì)解讀

    輕量級卷積神經(jīng)網(wǎng)絡(luò)MobileNets詳細(xì)解讀

    隨著深度學(xué)習(xí)的飛速發(fā)展,計算機(jī)視覺領(lǐng)域內(nèi)的卷積神經(jīng)網(wǎng)絡(luò)種類也層出不窮。從1998年的LeNet網(wǎng)絡(luò)到2012引起深度學(xué)習(xí)熱潮年的AlexNet網(wǎng)絡(luò),再到2014年的VGG網(wǎng)絡(luò),再到后來2015的ResNet網(wǎng)絡(luò),深度學(xué)習(xí)網(wǎng)絡(luò)在圖像處理上表現(xiàn)得越來越好。但是這些網(wǎng)絡(luò)都在不斷增加網(wǎng)絡(luò)深度和寬度來

    2024年02月04日
    瀏覽(24)
  • bp神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)建模論文,關(guān)于bp神經(jīng)網(wǎng)絡(luò)的論文

    bp神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)建模論文,關(guān)于bp神經(jīng)網(wǎng)絡(luò)的論文

    最初是86年,Rumelhart和McCelland領(lǐng)導(dǎo)的科學(xué)家小組在《平行分布式處理》一書中,對具有非線性連續(xù)變換函數(shù)的多層感知器的誤差反向傳播BP算法進(jìn)行了詳盡的分析,實(shí)現(xiàn)了Minsky關(guān)于多層網(wǎng)絡(luò)的設(shè)想。 一般引用的話,無需引用第一篇,只需引用介紹BP網(wǎng)絡(luò)的文獻(xiàn)即可。最開始的文

    2024年02月13日
    瀏覽(19)
  • 【圖神經(jīng)網(wǎng)絡(luò)】GNNExplainer代碼解讀及其PyG實(shí)現(xiàn)

    【圖神經(jīng)網(wǎng)絡(luò)】GNNExplainer代碼解讀及其PyG實(shí)現(xiàn)

    接上一篇博客圖神經(jīng)網(wǎng)絡(luò)的可解釋性方法及GNNexplainer代碼示例,我們這里簡單分析GNNExplainer源碼,并用PyTorch Geometric手動實(shí)現(xiàn)。 GNNExplainer的源碼地址:https://github.com/RexYing/gnn-model-explainer (1)安裝: 推薦使用python3.7以及創(chuàng)建虛擬環(huán)境: (2)訓(xùn)練一個GCN模型 其中EXPERIMENT_NAM

    2024年02月12日
    瀏覽(19)
  • 【論文筆記】神經(jīng)網(wǎng)絡(luò)壓縮調(diào)研

    【論文筆記】神經(jīng)網(wǎng)絡(luò)壓縮調(diào)研

    ?小模型,參數(shù)少,容易將ML模型部署在資源有限的設(shè)備上,但是直接訓(xùn)練一個好的小網(wǎng)絡(luò)比較困難 基于參數(shù)修建和共享的方法針對模型參數(shù)的冗余性 試圖取出冗余和不重要的項 基于低秩因子分解的技術(shù)使用矩陣/張量分解來估計深度學(xué)習(xí)模型的信息參數(shù) 基于傳輸/緊湊卷積

    2024年02月14日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包