国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——正則化（Regularization）：作為約束的范數(shù)懲罰

2年前作者：von Neumann分類：Toy博客閱讀(20)違法舉報

這篇具有很好參考價值的文章主要介紹了深入理解深度學(xué)習(xí)——正則化（Regularization）：作為約束的范數(shù)懲罰。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

分類目錄：《深入理解深度學(xué)習(xí)》總目錄

考慮經(jīng)過參數(shù)范數(shù)正則化的代價函數(shù)：
$\tilde{J}(\theta;X, y) = J(\theta;X, y) + \alpha\Omega(\theta)$

回顧《拉格朗日乘子法（二）：不等式約束與KKT條件》我們可以構(gòu)造一個廣義Lagrange函數(shù)來最小化帶約束的函數(shù)，即在原始目標函數(shù)上添加一系列懲罰項。每個懲罰是一個被稱為Karush–Kuhn–Tucker乘子的系數(shù)以及一個表示約束是否滿足的函數(shù)之間的乘積。如果我們想約束 $\Omega(\theta)$ 小于某個常數(shù) $k$ ，我們可以構(gòu)建廣義 Lagrange 函
數(shù)：
$L(\theta, \alpha;X, y) = J(\theta;X, y) + \alpha(\Omega(\theta) - k)$

這個約束問題的解由下式給出：
$\theta^* = \arg\min_\theta\max_\alpha L(\theta, \alpha; X, y)\quad(\alpha>0)$

解決這個問題我們需要對 $\theta$ 和 $\alpha$ 都做出調(diào)整。有許多不同的優(yōu)化方法，有些可能會使用梯度下降而其他可能會使用梯度為0的解析解，但在所有過程中 $\alpha$ 在 $\Omega(\theta)>k$ 時必須增加，在 $\Omega(\theta)<k$ 時必須減小。所有正值的 $\alpha$ 都鼓勵 $\Omega(\theta)$ 收縮。最優(yōu)值 $\alpha^*$ 也將鼓勵 $\Omega(\theta)$ 收縮，但不會強到使得 $\Omega(\theta)$ 小于 $k$ 。為了洞察約束的影響，我們可以固定 $\alpha^*$ ，把這個問題看成只跟 $\theta$ 有關(guān)的函數(shù)：
$\theta^* = \arg\min_\theta L(\theta, \alpha^*)= \arg\min_\theta L(\theta; X, y)+ \alpha^*\Omega(\theta)$

這和最小化的正則化訓(xùn)練問題是完全一樣的。因此，我們可以把參數(shù)范數(shù)懲罰看
作對權(quán)重強加的約束。如果是范數(shù)，那么權(quán)重就是被約束在一個球中。如果是范數(shù)，那么權(quán)重就是被約束在一個范數(shù)限制的區(qū)域中。通常我們不知道權(quán)重衰減系數(shù)約束的區(qū)域大小，因為的值不直接告訴我們的值。原則上我們可以解得，但和之間的關(guān)系取決于的形式。雖然我們不知道約束區(qū)域的確切大小，但我們可以通過增加或者減小來大致擴大或收縮約束區(qū)域。較大的 α，將得到一個較小的約束區(qū)域。較小的，將得到一個較大的約束區(qū)域。有時候，我們希望使用顯式的限制，而不是懲罰。我們可以修改隨機梯度下降算法，使其先計的下降步，然后將投影到滿足的最近點。如果我們知道什么樣的是合適的，而不想花時間尋找對應(yīng)于此處的值，這會非常有用。另一個使用顯式約束和重投影而不是使用懲罰強加約束的原因是懲罰可能會導(dǎo)致目標函數(shù)非凸而使算法陷入局部極小 (對應(yīng)于小的）。當訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，這通常表現(xiàn)為訓(xùn)練帶有幾個 ‘‘死亡單元’’ 的神經(jīng)網(wǎng)絡(luò)。這些單元不會對網(wǎng)絡(luò)學(xué)到的函數(shù)有太大影響，因為進入或離開它們的權(quán)重都非常小。當使用權(quán)重范數(shù)的懲罰訓(xùn)練時，即使可以通過增加權(quán)重以顯著減少，這些配置也可能是局部最優(yōu)的。因為重投影實現(xiàn)的顯式約束不鼓勵權(quán)重接近原點，所以在這些情況下效果更好。通過重投影實現(xiàn)的顯式約束只在權(quán)重變大并試圖離開限制區(qū)域時產(chǎn)生作用。最后，因為重投影的顯式約束還對優(yōu)化過程增加了一定的穩(wěn)定性，所以這是另一個好處。當使用較高的學(xué)習(xí)率時，很可能進入正反饋，即大的權(quán)重誘導(dǎo)大梯度，然后使得權(quán)重獲得較大更新。如果這些更新持續(xù)增加權(quán)重的大小，就會迅速增大，直到離原點很遠而發(fā)生溢出。重投影的顯式約束可以防止這種反饋環(huán)引起權(quán)重?zé)o限制地持續(xù)增加。Hinton建議結(jié)合使用約束和高學(xué)習(xí)速率，這樣能更快地探索參數(shù)空間，并保持一定的穩(wěn)定性。Hinton尤其推薦由Srebro and Shraibman (2005) 引入的策略：約束神經(jīng)網(wǎng)絡(luò)層的權(quán)重矩陣每列的范數(shù)，而不是限制整個權(quán)重矩陣的Frobenius范數(shù)。分別限制每一列的范數(shù)可以防止某一隱藏單元有非常大的權(quán)重。如果我們將此約束轉(zhuǎn)換成Lagrange函數(shù)中的一個懲罰，這將與權(quán)重衰減類似但每個隱藏單元的權(quán)重都具有單獨的 KKT 乘子。每個KKT乘子分別會被動態(tài)更新，以使每個隱藏單元服從約束。在實踐中，列范數(shù)的限制總是通過重投影的顯式約束來實現(xiàn)。

參考文獻：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-478943.html

到了這里，關(guān)于深入理解深度學(xué)習(xí)——正則化（Regularization）：作為約束的范數(shù)懲罰的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

深入理解深度學(xué)習(xí)——正則化（Regularization）：Bagging和其他集成方法
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： · 集成學(xué)習(xí)（Ensemble Learning）：基礎(chǔ)知識 · 集成學(xué)習(xí)（Ensemble Learning）：提升法Boosting與Adaboost算法 · 集成學(xué)習(xí)（Ensemble Learning）：袋裝法Bagging · 正則化（Regularization）：Bagging和其他集成方法 Bagging（Bootstrap Aggregating）是通
2024年02月07日
瀏覽(18)
深度學(xué)習(xí)記錄--正則化(regularization)
正則化(regularization)是一種實用的減少方差 ( variance )的方法，也即避免過度擬合 L2正則化又被稱為權(quán)重衰減(weight dacay) ?在成本函數(shù)中加上正則項：其中??? ?由于在w的更新過程中會遞減，即權(quán)重衰減 w遞減的過程，實際上是w趨近于0的過程在這個過程中，部分單元的影響
2024年01月19日
瀏覽(48)
七篇深入理解機器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦
在這篇文章中將介紹7篇機器學(xué)習(xí)和深度學(xué)習(xí)的論文或者圖書出版物，這些內(nèi)容都論文極大地影響了我對該領(lǐng)域的理解，如果你想深入了解機器學(xué)習(xí)的內(nèi)容，哪么推薦閱讀。在自然語言處理和序列建模領(lǐng)域，Vaswani等人的一篇論文《Attention Is All You Need》徹底改變了這一領(lǐng)域。這
2024年02月07日
瀏覽(18)
深入理解深度學(xué)習(xí)——Transformer：編碼器（Encoder）部分
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機制（AttentionMechanism）：基礎(chǔ)知識 ·注意力機制（AttentionMechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機制（AttentionMechanism）：注意力評分函數(shù)（AttentionScoringFunction） ·注意力機制（AttentionMechanism）：Bahda
2024年02月08日
瀏覽(26)
深入理解深度學(xué)習(xí)——Transformer：解碼器（Decoder）部分
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機制（Attention Mechanism）：基礎(chǔ)知識 ·注意力機制（Attention Mechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機制（Attention Mechanism）：注意力評分函數(shù)（Attention Scoring Function） ·注意力機制（Attention Mechanism）：
2024年02月10日
瀏覽(34)
深入理解深度學(xué)習(xí)——BERT派生模型：ALBERT（A Lite BERT）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄預(yù)訓(xùn)練語言模型的一個趨勢是使用更大的模型配合更多的數(shù)據(jù)，以達到“大力出奇跡”的效果。隨著模型規(guī)模的持續(xù)增大，單塊GPU已經(jīng)無法容納整個預(yù)訓(xùn)練語言模型。為了解決這個問題，谷歌提出了ALBERT，該模型與BERT幾乎沒有區(qū)別，
2024年02月10日
瀏覽(22)
深入理解深度學(xué)習(xí)——注意力機制（Attention Mechanism）：位置編碼（Positional Encoding）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機制（AttentionMechanism）：基礎(chǔ)知識 ·注意力機制（AttentionMechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機制（AttentionMechanism）：注意力評分函數(shù)（AttentionScoringFunction） ·注意力機制（AttentionMechanism）：Bahda
2024年02月08日
瀏覽(30)
深入理解深度學(xué)習(xí)——BERT（Bidirectional Encoder Representations from Transformers）：基礎(chǔ)知識
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： · BERT（Bidirectional Encoder Representations from Transformers）：基礎(chǔ)知識 · BERT（Bidirectional Encoder Representations from Transformers）：BERT的結(jié)構(gòu) · BERT（Bidirectional Encoder Representations from Transformers）：MLM（Masked Language Model） · BERT（Bidirect
2024年02月11日
瀏覽(24)
深入理解深度學(xué)習(xí)——GPT（Generative Pre-Trained Transformer）：基礎(chǔ)知識
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： · GPT（Generative Pre-Trained Transformer）：基礎(chǔ)知識 · GPT（Generative Pre-Trained Transformer）：在不同任務(wù)中使用GPT · GPT（Generative Pre-Trained Transformer）：GPT-2與Zero-shot Learning · GPT（Generative Pre-Trained Transformer）：GPT-3與Few-shot Learning
2024年02月10日
瀏覽(33)
深入理解深度學(xué)習(xí)——BERT派生模型：T5（Text to Text Transfer Transformer）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄 T5的全稱為Text to Text Transfer Transformer，是谷歌提出的預(yù)訓(xùn)練語言模型領(lǐng)域的通用模型，該模型將所有自然語言問題都轉(zhuǎn)化成文本到文本的形式，并用一個統(tǒng)一的模型解決。為了得到大一統(tǒng)的高質(zhì)量預(yù)訓(xùn)練語言模型，T5不可避免地走上了
2024年02月10日
瀏覽(22)