分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
· BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識
· BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任務(wù)
· BERT(Bidirectional Encoder Representations from Transformers):輸入表示
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[句對分類]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[單句分類]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[文本問答]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[單句標(biāo)注]
· BERT(Bidirectional Encoder Representations from Transformers):模型總結(jié)與注意事項
BERT是由堆疊的Transformer Encoder層組成核心網(wǎng)絡(luò),輔以詞編碼和位置編碼而成的。BERT的網(wǎng)絡(luò)形態(tài)與GPT非常相似。簡化版本的ELMo、GPT和BERT的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。圖中的“Trm”表示Transformer Block,即基于Transformer的特征提取器。
- ELMo使用自左向右編碼和自右向左編碼的兩個LSTM網(wǎng)絡(luò),分別以 P ( w i ∣ w 1 , w 2 , ? ? , w i ? 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi?∣w1?,w2?,?,wi?1?)和 P ( w i ∣ w i + 1 , w i + 2 , ? ? , w n ) P(w_i|w_{i+1}, w_{i+2}, \cdots, w_n) P(wi?∣wi+1?,wi+2?,?,wn?)為目標(biāo)函數(shù)獨立訓(xùn)練,將訓(xùn)練得到的特征向量以拼接的形式實現(xiàn)雙向編碼。
- GPT使用Transformer Decoder作為Transformer Block,以 P ( w i ∣ w 1 , w 2 , ? ? , w i ? 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi?∣w1?,w2?,?,wi?1?)為目標(biāo)函數(shù)進(jìn)行訓(xùn)練,用Transformer Block取代LSTM作為特征提取器,實現(xiàn)了單向編碼,是一個標(biāo)準(zhǔn)的預(yù)訓(xùn)練語言模型。
- BERT與ELMo的區(qū)別在于使用Transformer Block作為特征提取器,加強(qiáng)了語義特征提取的能力;與GPT的區(qū)別在于使用Transformer Encoder作為Transformer Block,將GPT的單向編碼改為雙向編碼。BERT舍棄了文本生成能力,換來了更強(qiáng)的語義理解能力。
將GPT結(jié)構(gòu)中的Masked Multi-Head Attention層(參考文章《深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)》)替換成Multi-Head Attention層,即可得到BERT的模型結(jié)構(gòu),如下圖所示。
在模型參數(shù)選擇上,有兩套大小不一致的模型。
L
L
L代表Transformer Block的層數(shù),
H
H
H代表特征向量的維數(shù)(此處默認(rèn)Feed Forward層中的中間隱層的維數(shù)為
4
H
4H
4H),
A
A
A表示Self-Attention的頭數(shù),參數(shù)的具體含義可以參考《深入理解深度學(xué)習(xí)——Transformer》系列文章,使用這三個核心參數(shù)基本可以定義BERT的量級:
- BERT BASE : L = 12 , H = 768 , A = 12 \text{BERT}_{\text{BASE}}: L=12, H=768, A=12 BERTBASE?:L=12,H=768,A=12:總參數(shù)量為1.1億
- BERT LARGE : L = 24 , H = 1024 , A = 16 \text{BERT}_{\text{LARGE}}: L=24, H=1024, A=16 BERTLARGE?:L=24,H=1024,A=16:總參數(shù)量為3.4億
BERT
BASE
\text{BERT}_{\text{BASE}}
BERTBASE?是為了與第一代GPT做對比而專門設(shè)計的,其參數(shù)量與GPT相當(dāng),此舉的目的在于通過對比
BERT
BASE
\text{BERT}_{\text{BASE}}
BERTBASE?與第一代GPT在各項任務(wù)上的性能,證明雙向編碼比單向編碼在語義理解方面更有優(yōu)勢,即量化BERT與GPT的核心差異所帶來的影響。下圖是BERT在GLUE測試任務(wù)中的測試結(jié)果,橫向?qū)Ρ攘薊LMo與GPT的最優(yōu)結(jié)果。
可以看出,與ELMo相比,GPT在所有任務(wù)上的效果都有顯著提升,這是使用Transformer Block取代LSTM作為特征提取器的結(jié)果。值得關(guān)注的是,相比GPT,
BERT
BASE
\text{BERT}_{\text{BASE}}
BERTBASE?在所有任務(wù)上的效果都有顯著提升(準(zhǔn)確率平均提升了4.5%~7.0%),證明了與單向編碼相比,雙向編碼在語義理解上具有極大的優(yōu)勢。不僅如此,與
BERT
BASE
\text{BERT}_{\text{BASE}}
BERTBASE?相比,
BERT
LARGE
\text{BERT}_{\text{LARGE}}
BERTLARGE?在所有任務(wù)上的效果還有明顯提升,在訓(xùn)練集資源受限的任務(wù)上尤為明顯。有關(guān)模型大小與模型能力的對比,BERT的作者在三個任務(wù)上測試了不同參數(shù)量設(shè)置情況下BERT的性能表現(xiàn),下圖所示為不同規(guī)模的BERT在不同任務(wù)上的性能表現(xiàn),隨著BERT參數(shù)量的增大,模型在所有任務(wù)上的表現(xiàn)都有明顯進(jìn)步。
近年來,受限于可用于監(jiān)督訓(xùn)練的帶標(biāo)簽數(shù)據(jù)的規(guī)模,部分學(xué)者認(rèn)為采用更大的模型無法得到更高的收益,而BERT的出現(xiàn)證明了預(yù)訓(xùn)練語言模型采用無監(jiān)督訓(xùn)練和特定數(shù)據(jù)集微調(diào)訓(xùn)練的模式可以突破這一限制,即更大規(guī)模的預(yù)訓(xùn)練語言模型總是可以通過模型參數(shù)隨機(jī)初始化和領(lǐng)域數(shù)據(jù)微調(diào)獲得更好的性能。這也符合近年來預(yù)訓(xùn)練語言模型的參數(shù)規(guī)模爆發(fā)式增長的趨勢,文章《深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-3與Few-shot Learning》提到的具有1750億參數(shù)的GPT-3便在這條路上走到了當(dāng)時的極致,也確實取得了出乎意料的效果。而BERT是否能在未來以更大規(guī)模的模型顛覆自己創(chuàng)造的記錄,也未可知。文章來源:http://www.zghlxwxcb.cn/news/detail-500465.html
參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 車萬翔, 崔一鳴, 郭江. 自然語言處理:基于預(yù)訓(xùn)練模型的方法[M]. 電子工業(yè)出版社, 2021.
[4] 邵浩, 劉一烽. 預(yù)訓(xùn)練語言模型[M]. 電子工業(yè)出版社, 2021.
[5] 何晗. 自然語言處理入門[M]. 人民郵電出版社, 2019
[6] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實戰(zhàn)[M]. 人民郵電出版社, 2023
[7] 吳茂貴, 王紅星. 深入淺出Embedding:原理解析與應(yīng)用實戰(zhàn)[M]. 機(jī)械工業(yè)出版社, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-500465.html
到了這里,關(guān)于深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!