分類目錄:《深入理解深度學習》總目錄
讓機器學習模型泛化得更好的最好辦法是使用更多的數(shù)據(jù)進行訓練。當然,在實踐中,我們擁有的數(shù)據(jù)量是很有限的。解決這個問題的一種方法是創(chuàng)建假數(shù)據(jù)并添加到訓練集中。對于一些機器學習任務(wù),創(chuàng)建新的假數(shù)據(jù)相當簡單。對分類來說這種方法是最簡單的。分類器需要一個復(fù)雜的高維輸入 x x x,并用單個類別標識 y y y概括 x x x。這意味著分類面臨的一個主要任務(wù)是要對各種各樣的變換保持不變。我們可以輕易通過轉(zhuǎn)換訓練集中的 x x x來生成新的 ( x , y ) (x,y) (x,y)對。
這種方法對于其他許多任務(wù)來說并不那么容易。例如,除非我們已經(jīng)解決了密度估計問題,否則在密度估計任務(wù)中生成新的假數(shù)據(jù)是很困難的。數(shù)據(jù)集增強對一個具體的分類問題來說是特別有效的方法:對象識別。圖像是高維的并包括各種巨大的變化因素,其中有許多可以輕易地模擬。即使模型已使用卷積和池化技術(shù)對部分平移保持不變,沿訓練圖像每個方向平移幾個像素的操作通??梢源蟠蟾纳品夯?。許多其他操作如旋轉(zhuǎn)圖像或縮放圖像也已被證明
非常有效。我們必須要小心,不能使用會改變類別的轉(zhuǎn)換。例如,光學字符識別任務(wù)需要認識到 “b’’ 和 “d’’ 以及 “6’’ 和 “9’’ 的區(qū)別,所以對這些任務(wù)來說,水平翻轉(zhuǎn)和旋轉(zhuǎn)180? 并不是合適的數(shù)據(jù)集增強方式。
能保持我們希望的分類不變,但不容易執(zhí)行的轉(zhuǎn)換也是存在的。例如,平面外繞軸轉(zhuǎn)動難以通過簡單的幾何運算在輸入像素上實現(xiàn)。數(shù)據(jù)集增強對語音識別任務(wù)也是有效的 。在神經(jīng)網(wǎng)絡(luò)的輸入層注入噪聲也可以被看作是數(shù)據(jù)增強的一種方式。對于許多分類甚至一些回歸任務(wù)而言,即使小的隨機噪聲被加到輸入,任務(wù)仍應(yīng)該是能夠被解決的。然而,神經(jīng)網(wǎng)絡(luò)被證明對噪聲不是非常健壯。改善神經(jīng)網(wǎng)絡(luò)健壯性的方法之一是簡單地將隨機噪聲添加到輸入再進行訓練。輸入噪聲注入是一些無監(jiān)督學習算法的一部分,如去噪自編碼器。向隱藏單元施加噪聲也是可行的,這可以被看作在多個抽象層上進行的數(shù)據(jù)集增強。Poole et al.表明,噪聲的幅度被細心調(diào)整后,該方法是非常高效的。
在后面的文章中,我們將介紹一個強大的正則化策略Dropout,該策略可以被看作是通過與噪聲相乘構(gòu)建新輸入的過程。在比較機器學習基準測試的結(jié)果時,考慮其采取的數(shù)據(jù)集增強是很重要的。通常情況下,人工設(shè)計的數(shù)據(jù)集增強方案可以大大減少機器學習技術(shù)的泛化誤差。將一個機器學習算法的性能與另一個進行對比時,對照實驗是必要的。在比較機器學習算法A和機器學習算法B時,應(yīng)該確保這兩個算法使用同一人工設(shè)計的數(shù)據(jù)集增強方案。假設(shè)算法A在沒有數(shù)據(jù)集增強時表現(xiàn)不佳,而B結(jié)合大量人工轉(zhuǎn)換的數(shù)據(jù)后表現(xiàn)良好。在這樣的情況下,很可能是合成轉(zhuǎn)化引起了性能改進,而不是機器學習算法B比算法A更好。有時候,確定實驗是否已經(jīng)適當控制需要主觀判斷。例如,向輸入注入噪聲的機器學習算法是執(zhí)行數(shù)據(jù)集增強的一種形式。通常,普適操作(例如,向輸入添加高斯噪聲)被認為是機器學習算法的一部分,而特定于一個應(yīng)用領(lǐng)域(如隨機地裁剪圖像)的操作被認為是獨立的預(yù)處理步驟。文章來源:http://www.zghlxwxcb.cn/news/detail-600288.html
參考文獻:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-600288.html
到了這里,關(guān)于深入理解深度學習——正則化(Regularization):數(shù)據(jù)集增強的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!