国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)

這篇具有很好參考價值的文章主要介紹了深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
· BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識
· BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任務(wù)
· BERT(Bidirectional Encoder Representations from Transformers):輸入表示
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[句對分類]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[單句分類]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[文本問答]
· BERT(Bidirectional Encoder Representations from Transformers):微調(diào)訓(xùn)練-[單句標(biāo)注]
· BERT(Bidirectional Encoder Representations from Transformers):模型總結(jié)與注意事項


BERT是由堆疊的Transformer Encoder層組成核心網(wǎng)絡(luò),輔以詞編碼和位置編碼而成的。BERT的網(wǎng)絡(luò)形態(tài)與GPT非常相似。簡化版本的ELMo、GPT和BERT的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。圖中的“Trm”表示Transformer Block,即基于Transformer的特征提取器。
深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)

  • ELMo使用自左向右編碼和自右向左編碼的兩個LSTM網(wǎng)絡(luò),分別以 P ( w i ∣ w 1 , w 2 , ? ? , w i ? 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi?w1?,w2?,?,wi?1?) P ( w i ∣ w i + 1 , w i + 2 , ? ? , w n ) P(w_i|w_{i+1}, w_{i+2}, \cdots, w_n) P(wi?wi+1?,wi+2?,?,wn?)為目標(biāo)函數(shù)獨立訓(xùn)練,將訓(xùn)練得到的特征向量以拼接的形式實現(xiàn)雙向編碼。
  • GPT使用Transformer Decoder作為Transformer Block,以 P ( w i ∣ w 1 , w 2 , ? ? , w i ? 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi?w1?,w2?,?,wi?1?)為目標(biāo)函數(shù)進(jìn)行訓(xùn)練,用Transformer Block取代LSTM作為特征提取器,實現(xiàn)了單向編碼,是一個標(biāo)準(zhǔn)的預(yù)訓(xùn)練語言模型。
  • BERT與ELMo的區(qū)別在于使用Transformer Block作為特征提取器,加強(qiáng)了語義特征提取的能力;與GPT的區(qū)別在于使用Transformer Encoder作為Transformer Block,將GPT的單向編碼改為雙向編碼。BERT舍棄了文本生成能力,換來了更強(qiáng)的語義理解能力。

將GPT結(jié)構(gòu)中的Masked Multi-Head Attention層(參考文章《深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):帶掩碼的多頭注意力(Masked Multi-head Attention)》)替換成Multi-Head Attention層,即可得到BERT的模型結(jié)構(gòu),如下圖所示。
深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)
在模型參數(shù)選擇上,有兩套大小不一致的模型。 L L L代表Transformer Block的層數(shù), H H H代表特征向量的維數(shù)(此處默認(rèn)Feed Forward層中的中間隱層的維數(shù)為 4 H 4H 4H), A A A表示Self-Attention的頭數(shù),參數(shù)的具體含義可以參考《深入理解深度學(xué)習(xí)——Transformer》系列文章,使用這三個核心參數(shù)基本可以定義BERT的量級:

  • BERT BASE : L = 12 , H = 768 , A = 12 \text{BERT}_{\text{BASE}}: L=12, H=768, A=12 BERTBASE?:L=12,H=768,A=12:總參數(shù)量為1.1億
  • BERT LARGE : L = 24 , H = 1024 , A = 16 \text{BERT}_{\text{LARGE}}: L=24, H=1024, A=16 BERTLARGE?:L=24,H=1024,A=16:總參數(shù)量為3.4億

BERT BASE \text{BERT}_{\text{BASE}} BERTBASE?是為了與第一代GPT做對比而專門設(shè)計的,其參數(shù)量與GPT相當(dāng),此舉的目的在于通過對比 BERT BASE \text{BERT}_{\text{BASE}} BERTBASE?與第一代GPT在各項任務(wù)上的性能,證明雙向編碼比單向編碼在語義理解方面更有優(yōu)勢,即量化BERT與GPT的核心差異所帶來的影響。下圖是BERT在GLUE測試任務(wù)中的測試結(jié)果,橫向?qū)Ρ攘薊LMo與GPT的最優(yōu)結(jié)果。
深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)
可以看出,與ELMo相比,GPT在所有任務(wù)上的效果都有顯著提升,這是使用Transformer Block取代LSTM作為特征提取器的結(jié)果。值得關(guān)注的是,相比GPT, BERT BASE \text{BERT}_{\text{BASE}} BERTBASE?在所有任務(wù)上的效果都有顯著提升(準(zhǔn)確率平均提升了4.5%~7.0%),證明了與單向編碼相比,雙向編碼在語義理解上具有極大的優(yōu)勢。不僅如此,與 BERT BASE \text{BERT}_{\text{BASE}} BERTBASE?相比, BERT LARGE \text{BERT}_{\text{LARGE}} BERTLARGE?在所有任務(wù)上的效果還有明顯提升,在訓(xùn)練集資源受限的任務(wù)上尤為明顯。有關(guān)模型大小與模型能力的對比,BERT的作者在三個任務(wù)上測試了不同參數(shù)量設(shè)置情況下BERT的性能表現(xiàn),下圖所示為不同規(guī)模的BERT在不同任務(wù)上的性能表現(xiàn),隨著BERT參數(shù)量的增大,模型在所有任務(wù)上的表現(xiàn)都有明顯進(jìn)步。
深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)
近年來,受限于可用于監(jiān)督訓(xùn)練的帶標(biāo)簽數(shù)據(jù)的規(guī)模,部分學(xué)者認(rèn)為采用更大的模型無法得到更高的收益,而BERT的出現(xiàn)證明了預(yù)訓(xùn)練語言模型采用無監(jiān)督訓(xùn)練和特定數(shù)據(jù)集微調(diào)訓(xùn)練的模式可以突破這一限制,即更大規(guī)模的預(yù)訓(xùn)練語言模型總是可以通過模型參數(shù)隨機(jī)初始化和領(lǐng)域數(shù)據(jù)微調(diào)獲得更好的性能。這也符合近年來預(yù)訓(xùn)練語言模型的參數(shù)規(guī)模爆發(fā)式增長的趨勢,文章《深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-3與Few-shot Learning》提到的具有1750億參數(shù)的GPT-3便在這條路上走到了當(dāng)時的極致,也確實取得了出乎意料的效果。而BERT是否能在未來以更大規(guī)模的模型顛覆自己創(chuàng)造的記錄,也未可知。

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 車萬翔, 崔一鳴, 郭江. 自然語言處理:基于預(yù)訓(xùn)練模型的方法[M]. 電子工業(yè)出版社, 2021.
[4] 邵浩, 劉一烽. 預(yù)訓(xùn)練語言模型[M]. 電子工業(yè)出版社, 2021.
[5] 何晗. 自然語言處理入門[M]. 人民郵電出版社, 2019
[6] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實戰(zhàn)[M]. 人民郵電出版社, 2023
[7] 吳茂貴, 王紅星. 深入淺出Embedding:原理解析與應(yīng)用實戰(zhàn)[M]. 機(jī)械工業(yè)出版社, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-500465.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 預(yù)訓(xùn)練語言模型的一個趨勢是使用更大的模型配合更多的數(shù)據(jù),以達(dá)到“大力出奇跡”的效果。隨著模型規(guī)模的持續(xù)增大,單塊GPU已經(jīng)無法容納整個預(yù)訓(xùn)練語言模型。為了解決這個問題,谷歌提出了ALBERT,該模型與BERT幾乎沒有區(qū)別,

    2024年02月10日
    瀏覽(22)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:RoBERTa(A Robustly Optimized BERT Pretraining Approach)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 現(xiàn)階段,預(yù)訓(xùn)練語言模型總是可以通過更大的模型和更多的數(shù)據(jù)獲得更好的性能,GPT系列模型就是此類優(yōu)化方向的典范。RoBERTa(模型名源自論文名A Robustly Optimized BERT Pretraining Approach)是臉書公司提出的在BERT基礎(chǔ)上增加訓(xùn)練數(shù)據(jù),充分

    2024年02月10日
    瀏覽(21)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 T5的全稱為Text to Text Transfer Transformer,是谷歌提出的預(yù)訓(xùn)練語言模型領(lǐng)域的通用模型,該模型將所有自然語言問題都轉(zhuǎn)化成文本到文本的形式,并用一個統(tǒng)一的模型解決。為了得到大一統(tǒng)的高質(zhì)量預(yù)訓(xùn)練語言模型,T5不可避免地走上了

    2024年02月10日
    瀏覽(22)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:跨語言模型XLM(Cross-lingual Language Model)

    深入理解深度學(xué)習(xí)——BERT派生模型:跨語言模型XLM(Cross-lingual Language Model)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 BERT本應(yīng)在語義理解上具有絕對優(yōu)勢,但其訓(xùn)練語料均為英語單語,受限于此,早期的BERT只在英語文本理解上有優(yōu)勢。隨著全球化進(jìn)程的加速,跨語言的預(yù)訓(xùn)練語言模型也具有非常重要的應(yīng)用場景。為了探究BERT在跨語言場景中的性能,

    2024年02月10日
    瀏覽(31)
  • 七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    在這篇文章中將介紹7篇機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的論文或者圖書出版物,這些內(nèi)容都論文極大地影響了我對該領(lǐng)域的理解,如果你想深入了解機(jī)器學(xué)習(xí)的內(nèi)容,哪么推薦閱讀。 在自然語言處理和序列建模領(lǐng)域,Vaswani等人的一篇論文《Attention Is All You Need》徹底改變了這一領(lǐng)域。這

    2024年02月07日
    瀏覽(18)
  • 深入理解深度學(xué)習(xí)——正則化(Regularization):Dropout

    深入理解深度學(xué)習(xí)——正則化(Regularization):Dropout

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 Dropout供了正則化一大類模型的方法,計算方便且功能強(qiáng)大。在第一種近似下,Dropout可以被認(rèn)為是集成大量深層神經(jīng)網(wǎng)絡(luò)的實用Bagging方法。Bagging涉及訓(xùn)練多個模型,并在每個測試樣本上評估多個模型。當(dāng)每個模型都是一個很大的神經(jīng)

    2024年02月09日
    瀏覽(18)
  • 深入理解深度學(xué)習(xí)——正則化(Regularization):數(shù)據(jù)集增強(qiáng)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 讓機(jī)器學(xué)習(xí)模型泛化得更好的最好辦法是使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練。當(dāng)然,在實踐中,我們擁有的數(shù)據(jù)量是很有限的。解決這個問題的一種方法是創(chuàng)建假數(shù)據(jù)并添加到訓(xùn)練集中。對于一些機(jī)器學(xué)習(xí)任務(wù),創(chuàng)建新的假數(shù)據(jù)相當(dāng)簡單。對分

    2024年02月16日
    瀏覽(23)
  • 深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(Attention Mechanism):基礎(chǔ)知識 ·注意力機(jī)制(Attention Mechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(Attention Mechanism):注意力評分函數(shù)(Attention Scoring Function) ·注意力機(jī)制(Attention Mechanism):

    2024年02月10日
    瀏覽(34)
  • 深入理解深度學(xué)習(xí)——正則化(Regularization):參數(shù)綁定和參數(shù)共享

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 目前為止,我們討論對參數(shù)添加約束或懲罰時,一直是相對于固定的區(qū)域或點。例如, L 2 L^2 L 2 正則化(或權(quán)重衰減)對參數(shù)偏離零的固定值進(jìn)行懲罰。然而,有時我們可能需要其他的方式來表達(dá)我們對模型參數(shù)適當(dāng)值的先驗知識。

    2024年02月07日
    瀏覽(34)
  • 深入理解深度學(xué)習(xí)——正則化(Regularization):Bagging和其他集成方法

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: · 集成學(xué)習(xí)(Ensemble Learning):基礎(chǔ)知識 · 集成學(xué)習(xí)(Ensemble Learning):提升法Boosting與Adaboost算法 · 集成學(xué)習(xí)(Ensemble Learning):袋裝法Bagging · 正則化(Regularization):Bagging和其他集成方法 Bagging(Bootstrap Aggregating)是通

    2024年02月07日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包