分類目錄:《深入理解深度學(xué)習(xí)》總目錄
考慮經(jīng)過參數(shù)范數(shù)正則化的代價函數(shù):
J
~
(
θ
;
X
,
y
)
=
J
(
θ
;
X
,
y
)
+
α
Ω
(
θ
)
\tilde{J}(\theta;X, y) = J(\theta;X, y) + \alpha\Omega(\theta)
J~(θ;X,y)=J(θ;X,y)+αΩ(θ)
回顧《拉格朗日乘子法(二):不等式約束與KKT條件》我們可以構(gòu)造一個廣義Lagrange函數(shù)來最小化帶約束的函數(shù),即在原始目標函數(shù)上添加一系列懲罰項。每個懲罰是一個被稱為Karush–Kuhn–Tucker乘子的系數(shù)以及一個表示約束是否滿足的函數(shù)之間的乘積。如果我們想約束
Ω
(
θ
)
\Omega(\theta)
Ω(θ)小于某個常數(shù)
k
k
k,我們可以構(gòu)建廣義 Lagrange 函
數(shù):
L
(
θ
,
α
;
X
,
y
)
=
J
(
θ
;
X
,
y
)
+
α
(
Ω
(
θ
)
?
k
)
L(\theta, \alpha;X, y) = J(\theta;X, y) + \alpha(\Omega(\theta) - k)
L(θ,α;X,y)=J(θ;X,y)+α(Ω(θ)?k)
這個約束問題的解由下式給出:
θ
?
=
arg
?
min
?
θ
max
?
α
L
(
θ
,
α
;
X
,
y
)
(
α
>
0
)
\theta^* = \arg\min_\theta\max_\alpha L(\theta, \alpha; X, y)\quad(\alpha>0)
θ?=argθmin?αmax?L(θ,α;X,y)(α>0)
解決這個問題我們需要對
θ
\theta
θ和
α
\alpha
α都做出調(diào)整。有許多不同的優(yōu)化方法,有些可能會使用梯度下降而其他可能會使用梯度為0的解析解,但在所有過程中
α
\alpha
α在
Ω
(
θ
)
>
k
\Omega(\theta)>k
Ω(θ)>k時必須增加,在
Ω
(
θ
)
<
k
\Omega(\theta)<k
Ω(θ)<k時必須減小。所有正值的
α
\alpha
α都鼓勵
Ω
(
θ
)
\Omega(\theta)
Ω(θ)收縮。最優(yōu)值
α
?
\alpha^*
α?也將鼓勵
Ω
(
θ
)
\Omega(\theta)
Ω(θ)收縮,但不會強到使得
Ω
(
θ
)
\Omega(\theta)
Ω(θ)小于
k
k
k。為了洞察約束的影響,我們可以固定
α
?
\alpha^*
α?,把這個問題看成只跟
θ
\theta
θ有關(guān)的函數(shù):
θ
?
=
arg
?
min
?
θ
L
(
θ
,
α
?
)
=
arg
?
min
?
θ
L
(
θ
;
X
,
y
)
+
α
?
Ω
(
θ
)
\theta^* = \arg\min_\theta L(\theta, \alpha^*)= \arg\min_\theta L(\theta; X, y)+ \alpha^*\Omega(\theta)
θ?=argθmin?L(θ,α?)=argθmin?L(θ;X,y)+α?Ω(θ)
這和最小化
J
~
\tilde{J}
J~的正則化訓(xùn)練問題是完全一樣的。因此,我們可以把參數(shù)范數(shù)懲罰看
作對權(quán)重強加的約束。如果
Ω
\Omega
Ω是
L
2
L^2
L2范數(shù),那么權(quán)重就是被約束在一個
L
2
L^2
L2球中。如果
Ω
\Omega
Ω是
L
1
L^1
L1范數(shù),那么權(quán)重就是被約束在一個
L
1
L^1
L1范數(shù)限制的區(qū)域中。通常我們不知道權(quán)重衰減系數(shù)
α
?
\alpha^*
α?約束的區(qū)域大小,因為
α
?
\alpha^*
α? 的值不直接告訴我們
k
k
k的值。原則上我們可以解得
k
k
k,但
k
k
k和
α
?
\alpha^*
α?之間的關(guān)系取決于
J
J
J的形式。雖然我們不知道約束區(qū)域的確切大小,但我們可以通過增加或者減小
α
\alpha
α來大致擴大或收縮約束區(qū)域。較大的 α,將得到一個較小的約束區(qū)域。較小的
α
\alpha
α,將得到一個較大的約束區(qū)域。有時候,我們希望使用顯式的限制,而不是懲罰。我們可以修改隨機梯度下降算法,使其先計
J
(
θ
)
J(θ)
J(θ)的下降步,然后將
θ
\theta
θ投影到滿足
Ω
(
θ
)
<
k
\Omega(\theta)<k
Ω(θ)<k的最近點。如果我們知道什么樣的
k
k
k是合適的,而不想花時間尋找對應(yīng)于此
k
k
k處的
α
\alpha
α值,這會非常有用。另一個使用顯式約束和重投影而不是使用懲罰強加約束的原因是懲罰可能會導(dǎo)致目標函數(shù)非凸而使算法陷入局部極小 (對應(yīng)于小的
θ
\theta
θ)。當訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,這通常表現(xiàn)為訓(xùn)練帶有幾個 ‘‘死亡單元’’ 的神經(jīng)網(wǎng)絡(luò)。這些單元不會對網(wǎng)絡(luò)學(xué)到的函數(shù)有太大影響,因為進入或離開它們的權(quán)重都非常小。當使用權(quán)重范數(shù)的懲罰訓(xùn)練時,即使可以通過增加權(quán)重以顯著減少
J
J
J,這些配置也可能是局部最優(yōu)的。因為重投影實現(xiàn)的顯式約束不鼓勵權(quán)重接近原點,所以在這些情況下效果更好。通過重投影實現(xiàn)的顯式約束只在權(quán)重變大并試圖離開限制區(qū)域時產(chǎn)生作用。最后,因為重投影的顯式約束還對優(yōu)化過程增加了一定的穩(wěn)定性,所以這是另一個好處。當使用較高的學(xué)習(xí)率時,很可能進入正反饋,即大的權(quán)重誘導(dǎo)大梯度,然后使得權(quán)重獲得較大更新。如果這些更新持續(xù)增加權(quán)重的大小,
θ
\theta
θ就會迅速增大,直到離原點很遠而發(fā)生溢出。重投影的顯式約束可以防止這種反饋環(huán)引起權(quán)重?zé)o限制地持續(xù)增加。Hinton建議結(jié)合使用約束和高學(xué)習(xí)速率,這樣能更快地探索參數(shù)空間,并保持一定的穩(wěn)定性。Hinton尤其推薦由Srebro and Shraibman (2005) 引入的策略:約束神經(jīng)網(wǎng)絡(luò)層的權(quán)重矩陣每列的范數(shù),而不是限制整個權(quán)重矩陣的Frobenius范數(shù)。分別限制每一列的范數(shù)可以防止某一隱藏單元有非常大的權(quán)重。如果我們將此約束轉(zhuǎn)換成Lagrange函數(shù)中的一個懲罰,這將與
L
2
L^2
L2權(quán)重衰減類似但每個隱藏單元的權(quán)重都具有單獨的 KKT 乘子。每個KKT乘子分別會被動態(tài)更新,以使每個隱藏單元服從約束。在實踐中,列范數(shù)的限制總是通過重投影的顯式約束來實現(xiàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-478943.html
參考文獻:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-478943.html
到了這里,關(guān)于深入理解深度學(xué)習(xí)——正則化(Regularization):作為約束的范數(shù)懲罰的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!