分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識(shí)
·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸
·注意力機(jī)制(AttentionMechanism):注意力評(píng)分函數(shù)(AttentionScoringFunction)
·注意力機(jī)制(AttentionMechanism):Bahdanau注意力
·注意力機(jī)制(AttentionMechanism):多頭注意力(MultiheadAttention)
·注意力機(jī)制(AttentionMechanism):自注意力(Self-attention)
·注意力機(jī)制(AttentionMechanism):位置編碼(PositionalEncoding)
Transformer中的編碼器不止一個(gè),而是由一組
N
N
N個(gè)編碼器串聯(lián)而成。一個(gè)編碼器的輸出作為下一個(gè)編碼器的輸入。在下圖中有
N
N
N個(gè)編碼器,每一個(gè)編碼器都從下方接收數(shù)據(jù),再輸出給上方。以此類推,原句中的特征會(huì)由最后一個(gè)編碼器輸出。編碼器模塊的主要功能就是提取原始序列(圖中為“I am good.”句子)中的特征。
需要注意的是,在Transformer原論文《Attention Is All You Need》中,作者使用了 N = 6 N=6 N=6,也就是說,一共有6個(gè)編碼器疊加在一起。當(dāng)然,我們可以嘗試使用不同的 N N N值。這里為了方便理解,我們使用 N = 2 N=2 N=2。要進(jìn)一步理解編碼器的工作原理,我們可以將編碼器再次分解。下圖展示了編碼器的組成部分。由下圖可知,每一個(gè)編碼器的構(gòu)造都是相同的,并且包含兩個(gè)部分:
- 多頭注意力層
- 前饋網(wǎng)絡(luò)層
其中多頭注意力層即是我們?cè)凇渡钊肜斫馍疃葘W(xué)習(xí)——注意力機(jī)制(Attention Mechanism):多頭注意力(Multi-head Attention)》中介紹的多頭注意力。前饋網(wǎng)絡(luò)由兩個(gè)有ReLU激活函數(shù)的全連接層組成。前饋網(wǎng)絡(luò)的參數(shù)在句子的不同位置上是相同的,但在不同的編碼器模塊上是不同的。除此之外,在編碼器中還有一個(gè)重要的組成部分,即疊加和歸一組件。它同時(shí)連接一個(gè)子層的輸入和輸出,如下圖所示(虛線部分),它同時(shí)連接多頭注意力層的輸入和輸出,也同時(shí)連接前饋網(wǎng)絡(luò)層的輸入和輸出。
疊加和歸一組件實(shí)際上包含一個(gè)殘差連接與層的歸一化。層的歸一化可以防止每層的值劇烈變化,從而提高了模型的訓(xùn)練速度。
綜上所述,我們將編碼器1展開可以得到如下圖所示結(jié)構(gòu):
從上圖中我們可以總結(jié)出以下幾點(diǎn):
- 將輸入轉(zhuǎn)換為嵌入矩陣(輸入矩陣),并將位置編碼加入其中,再將結(jié)果作為輸入傳入底層的編碼器(編碼器1)。
- 編碼器1接受輸入并將其送入多頭注意力層,該子層運(yùn)算后輸出注意力矩陣。
- 將注意力矩陣輸入到下一個(gè)子層,即前饋網(wǎng)絡(luò)層。前饋網(wǎng)絡(luò)層將注意力矩陣作為輸入,并計(jì)算出特征值作為輸出。
- 把從編碼器1中得到的輸出作為輸入,傳入下一個(gè)編碼器(編碼器2)。
- 編碼器2進(jìn)行同樣的處理,再將給定輸入句子的特征值作為輸出。
這樣可以將 N N N個(gè)編碼器一個(gè)接一個(gè)地疊加起來。從最后一個(gè)編碼器(頂層的編碼器)得到的輸出將是給定輸入句子的特征值。讓我們把從最后一個(gè)編碼器(在本例中是編碼器2)得到的特征值表示為 R R R。我們把 R R R作為輸入傳給解碼器。解碼器將基于這個(gè)輸入生成目標(biāo)句,這也是Transformer的編碼器部分。文章來源:http://www.zghlxwxcb.cn/news/detail-480930.html
參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實(shí)戰(zhàn)[M]. 人民郵電出版社, 2023文章來源地址http://www.zghlxwxcb.cn/news/detail-480930.html
到了這里,關(guān)于深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!