引言
這是論文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的閱讀筆記。本篇論文提出了通過(guò)Pre-LN的方式可以省掉Warm-up環(huán)節(jié),并且可以加快Transformer的訓(xùn)練速度。
通常訓(xùn)練Transformer需要一個(gè)仔細(xì)設(shè)計(jì)的學(xué)習(xí)率warm-up(預(yù)熱)階段:在訓(xùn)練開(kāi)始階段學(xué)習(xí)率需要設(shè)成一個(gè)極小的值,然后在一些迭代后逐步增加。這個(gè)階段對(duì)于Transformer最終的表現(xiàn)非常重要,但同時(shí)引入了更多的超參數(shù)調(diào)節(jié)。學(xué)習(xí)率預(yù)熱被證明在處理一些特定問(wèn)題時(shí)是至關(guān)重要的,比如大批次訓(xùn)練。當(dāng)使用較大的批大小進(jìn)行訓(xùn)練時(shí),在開(kāi)始時(shí)使用一個(gè)較大的學(xué)習(xí)率來(lái)優(yōu)化模型通常會(huì)導(dǎo)致較差的效果。
在優(yōu)化開(kāi)始階段,對(duì)于原始的Transformer,把層歸一化放到殘差塊之間,接近輸出層的參數(shù)的梯度往往較大。然后在那些梯度上使用較大的學(xué)習(xí)率會(huì)使得訓(xùn)練不穩(wěn)定。warm-up階段在實(shí)際應(yīng)用中有助于避免這個(gè)問(wèn)題。
基于這種分析,作者提出了一種Transformer的變體,將層歸一化置于殘差塊之中(殘差連接里面)的修改方法。使得在初始化階段梯度也表現(xiàn)良好,同時(shí)更容易且更快訓(xùn)練。因此作者做出了結(jié)論,預(yù)熱階段可以被安全地移除,同時(shí)訓(xùn)練時(shí)間可以大大縮減。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-656769.html
簡(jiǎn)介
層歸一化(Layer Normalization)是Transformer中一個(gè)核心組件。原始的Transformer將層歸一化放置在之間,這被稱(chēng)為是Post-Layer Normalization(Post-LN)的做法。見(jiàn)下圖(a),紅框表示殘差塊,可以看到層歸一化在兩個(gè)殘差塊之間。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-656769.html
到了這里,關(guān)于[論文筆記](méi)ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!