国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

帶你熟悉NLP預(yù)訓(xùn)練模型:BERT

這篇具有很好參考價(jià)值的文章主要介紹了帶你熟悉NLP預(yù)訓(xùn)練模型:BERT。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本文分享自華為云社區(qū)《【昇思技術(shù)公開課筆記-大模型】Bert理論知識(shí)》,作者: JeffDing。

NLP中的預(yù)訓(xùn)練模型

語言模型演變經(jīng)歷的幾個(gè)階段

  1. word2vec/Glove將離散的文本數(shù)據(jù)轉(zhuǎn)換為固定長度的靜態(tài)詞向量,后根據(jù)下游任務(wù)訓(xùn)練不同的語言模型
  2. ELMo預(yù)訓(xùn)練模型將文本數(shù)據(jù)結(jié)合上下文信息,轉(zhuǎn)換為動(dòng)態(tài)詞向量,后根據(jù)下游任務(wù)訓(xùn)練不同的語言模型
  3. BERT同樣將文本數(shù)據(jù)轉(zhuǎn)換為動(dòng)態(tài)詞向量,能夠更好地捕捉句子級(jí)別的信息與語境信息,后續(xù)只需對(duì)BERT參數(shù)進(jìn)行微調(diào),僅重新訓(xùn)練最后的輸出層即可適配下游任務(wù)
  4. GPT等預(yù)訓(xùn)練語言模型主要用于文本生成類任務(wù),需要通過prompt方法來應(yīng)用于下游任務(wù),指導(dǎo)模型生成特定的輸出。

BERT模型本質(zhì)上是結(jié)合了ELMo模型與GPT模型的優(yōu)勢(shì)。

  • 相比于ELMo,BERT僅需改動(dòng)最后的輸出層,而非模型架構(gòu),便可以在下游任務(wù)中達(dá)到很好的效果;
  • 相比于GPT,BERT在處理詞元表示時(shí)考慮到了雙向上下文的信息;

Bert介紹

2018年Google發(fā)布了BERT(來自Transformer的雙向自編碼器)預(yù)訓(xùn)練模型,旨在通過聯(lián)合左側(cè)和右側(cè)的上下文,從未標(biāo)記文本中預(yù)訓(xùn)練出一個(gè)深度雙向表示模型。因此,BERT可以通過增加一個(gè)額外的輸出層來進(jìn)行微調(diào),就可以達(dá)到為廣泛的任務(wù)創(chuàng)建State-of-the-arts 模型的效果,比如QA、語言推理任務(wù)。

當(dāng)時(shí)將預(yù)訓(xùn)練模應(yīng)用于下游任務(wù)的策略通常有兩種:基于特征的(feature-based)和基于微調(diào)(fine-tuning);前者比如ELMo,后者比如OpenAI GPT;

這兩種策略在預(yù)訓(xùn)練期間具有相同的目標(biāo)函數(shù),在預(yù)訓(xùn)練期間,它們使用單向語言模型來學(xué)習(xí)一般的語言表示。但當(dāng)前對(duì)預(yù)訓(xùn)練方法的限制(尤其是對(duì)基于微調(diào)的方法)是標(biāo)準(zhǔn)語言模型是單向(unidirectional)的,所以限制了在預(yù)訓(xùn)練階段可選的模型結(jié)構(gòu)體系。

比如GPT是從左到右的,每個(gè)token只能關(guān)注到前一個(gè)token的self-attention layers。這種局限對(duì)于句子級(jí)任務(wù)(sentence-level tasks)來說還不是很打緊,但是對(duì)于token-level tasks(比如QA)就很致命,所以結(jié)合兩個(gè)方向的上下文信息至關(guān)重要。

Bert Input

第一步:Tokenization, 輸入的句子經(jīng)過分詞后,首尾添加[CLS]與[SEP]特殊字符,后轉(zhuǎn)換為數(shù)字id

第二步:Embedding, 輸入到BERT模型的信息由三部分內(nèi)容組成:

表示內(nèi)容的token ids

表示位置的position ids

用于區(qū)分不同句子的token type ids

將三種信息分別輸入Embedding層

如果出現(xiàn)輸入是句子對(duì)的情況呢?

BERT Architecture

BERT由Encoder Layer堆疊而成,Encoder Layer的組成與Transformer的Encoder Layer一致:

自注意力層 + 前饋神經(jīng)網(wǎng)絡(luò),中間通過residual connection和LayerNorm連接

BERT(Bidirectional Encoder Representation from Transformers)是由Transformer的Encoder層堆疊而成,BERT的模型大小有如下兩種:

BERT BASE:與Transformer參數(shù)量齊平,用于比較模型效果(110M parameters)

BERT LARGE:在BERT BASE基礎(chǔ)上擴(kuò)大參數(shù)量,達(dá)到了當(dāng)時(shí)各任務(wù)最好的結(jié)果(340M parameters)

BERT Output

BERT會(huì)針對(duì)每一個(gè)位置輸出大小為hidden size的向量,在下游任務(wù)中,會(huì)根據(jù)任務(wù)內(nèi)容的不同,選取不同的向量放入輸出層

pooler output

例如,在詐騙郵件分類任務(wù)中,我們會(huì)將表示句子級(jí)別信息的[CLS]?token所對(duì)應(yīng)的向量,經(jīng)過Bert Pooler放入classfier中,得到對(duì)spam/not spam分類的預(yù)測(cè)。

我們一般稱[CLS]經(jīng)過線性層+激活函數(shù)tanh的輸出為pooler output,用于句子級(jí)別的分類/回歸任務(wù)

sequence output

例如,在詞性標(biāo)注任務(wù)(POS Tagging)中,我們需要獲得每一個(gè)token所對(duì)應(yīng)的類別,因此需要將[CLS]和[SEP]中有實(shí)際意義的token輸出,分別輸入對(duì)應(yīng)的classifier中。

我們一般稱BERT輸出的每個(gè)位置對(duì)應(yīng)的vector為sequence output

BERT的不同下游任務(wù)

BERT預(yù)訓(xùn)練

BERT預(yù)訓(xùn)練任務(wù)有兩種:Masked Language Modelling(MLM) 和 Next Sentence Prediction (NSP)。

MLM:隨機(jī)遮蓋輸入句子中的一些詞語,并預(yù)測(cè)被遮蓋的詞語是什么(完形填空)

NSP:預(yù)測(cè)兩個(gè)句子是不是上下文的關(guān)系


Masked Language Model(MLM)

Masked Language Modelling(MLM) 捕捉詞語級(jí)別的信息

在輸入中隨機(jī)遮蓋15%的token(即將token替換為[MASK])

將[MASK]位置對(duì)應(yīng)的BERT輸出放入輸出層中,預(yù)測(cè)被遮蓋的token

在將[MASK]位置所對(duì)應(yīng)的BERT輸出放入輸出層后,本質(zhì)上是在進(jìn)行一個(gè)多分類任務(wù)



為了使得預(yù)訓(xùn)練任務(wù)和推理任務(wù)盡可能接近,BERT在隨機(jī)遮蓋的15%的tokens中又進(jìn)行了進(jìn)一步的處理:

80%的概率替換為[MASK]

10%的概率替換為文本中的隨機(jī)詞

10%的概率不進(jìn)行替換,保持原有的詞元


Next Sentence Prediction(NSP)

Next Sentence Prediction (NSP) 捕捉句子級(jí)別信息,簡(jiǎn)單來說是一個(gè)針對(duì)句子對(duì)的分類問題,判斷一組句子中,句子B是否為句子A的下一句(IsNext or NotNext)

Bert微調(diào)

在下游任務(wù)中,我們使用少量的標(biāo)注數(shù)據(jù)(labelled data)對(duì)預(yù)訓(xùn)練Transformer編碼器的所有參數(shù)進(jìn)行微調(diào),額外的輸出層將從頭開始訓(xùn)練。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-815031.html

點(diǎn)擊關(guān)注,第一時(shí)間了解華為云新鮮技術(shù)~

?

到了這里,關(guān)于帶你熟悉NLP預(yù)訓(xùn)練模型:BERT的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [NLP] BERT模型參數(shù)量

    [NLP] BERT模型參數(shù)量

    BERT_base模型的110M的參數(shù)具體是如何組成的呢,我們一起來計(jì)算一下: 剛好也能更深入地了解一下Transformer Encoder模型的架構(gòu)細(xì)節(jié)。 借助transformers模塊查看一下模型的架構(gòu): 得到的模型參數(shù)為: 其中,BERT模型的參數(shù)主要由三部分組成: Embedding層參數(shù) Transformer Encoder層參數(shù) L

    2024年02月11日
    瀏覽(23)
  • 帶你讀論文第十一期:上海人工智能實(shí)驗(yàn)室孫偉高博士,分享大模型分布式訓(xùn)練方法!...

    帶你讀論文第十一期:上海人工智能實(shí)驗(yàn)室孫偉高博士,分享大模型分布式訓(xùn)練方法!...

    ?Datawhale論文? 來源:WhalePaper,負(fù)責(zé)人:芙蕖 由Datawhale團(tuán)隊(duì)成員發(fā)起,對(duì)目前學(xué)術(shù)論文中比較成熟的 Topic 和開源方案進(jìn)行分享,通過一起閱讀、分享論文學(xué)習(xí)的方式幫助大家更好地“高效+全面+自律”學(xué)習(xí),讓大家都有所收獲和提升!方向包括自然語言處理(NLP)、計(jì)算機(jī)視

    2024年04月23日
    瀏覽(29)
  • NLP文本匹配任務(wù)Text Matching [有監(jiān)督訓(xùn)練]:PointWise(單塔)、DSSM(雙塔)、Sentence BERT(雙塔)項(xiàng)目實(shí)踐

    NLP文本匹配任務(wù)Text Matching [有監(jiān)督訓(xùn)練]:PointWise(單塔)、DSSM(雙塔)、Sentence BERT(雙塔)項(xiàng)目實(shí)踐

    本項(xiàng)目對(duì)3種常用的文本匹配的方法進(jìn)行實(shí)現(xiàn):PointWise(單塔)、DSSM(雙塔)、Sentence BERT(雙塔)。 文本匹配(Text Matching)是 NLP 下的一個(gè)分支,通常用于計(jì)算兩個(gè)句子之間的相似程度,在推薦、推理等場(chǎng)景下都有著重要的作用。 舉例來講,今天我們有一堆評(píng)論數(shù)據(jù),我們

    2024年02月12日
    瀏覽(26)
  • 【Bert101】最先進(jìn)的 NLP 模型解釋【01/4】

    【Bert101】最先進(jìn)的 NLP 模型解釋【01/4】

    ????????BERT是來自 【Bidirectional Encoder Representations from Transformers】 變壓器的雙向編碼器表示的縮寫,是用于自然語言處理的機(jī)器學(xué)習(xí)(ML)模型。它由Google AI Language的研究人員于2018年開發(fā),可作為瑞士軍刀解決方案,用于11 +最常見的語言任務(wù),例如情感分析和命名實(shí)體識(shí)

    2024年02月13日
    瀏覽(18)
  • 帶你上手基于Pytorch和Transformers的中文NLP訓(xùn)練框架

    帶你上手基于Pytorch和Transformers的中文NLP訓(xùn)練框架

    本文分享自華為云社區(qū)《全套解決方案:基于pytorch、transformers的中文NLP訓(xùn)練框架,支持大模型訓(xùn)練和文本生成,快速上手,海量訓(xùn)練數(shù)據(jù)》,作者: 汀丶 。 目標(biāo) :基于 pytorch 、 transformers 做中文領(lǐng)域的nlp開箱即用的訓(xùn)練框架,提供全套的訓(xùn)練、微調(diào)模型(包括大模型、文本

    2024年02月11日
    瀏覽(14)
  • 【NLP】BERT,BART和T5等LLM模型的比較

    ????????在這篇博文中,我將討論像BERT,BART和T5這樣的大型語言模型。到2020年,LLM領(lǐng)域取得的主要進(jìn)展包括這些模型的開發(fā)。BERT和T5由Google開發(fā),BART由Meta開發(fā)。我將根據(jù)這些模型的發(fā)布日期依次介紹這些模型的詳細(xì)信息。在之前的博客文章自然語言處理的自回歸模型中

    2024年02月15日
    瀏覽(16)
  • 【深度學(xué)習(xí)】預(yù)訓(xùn)練語言模型-BERT

    【深度學(xué)習(xí)】預(yù)訓(xùn)練語言模型-BERT

    ????????BERT 是一種預(yù)訓(xùn)練語言模型(pre-trained language model, PLM),其全稱是Bidirectional Encoder Representations from Transformers。下面從語言模型和預(yù)訓(xùn)練開始展開對(duì)預(yù)訓(xùn)練語言模型BERT的介紹。 1-1 語言模型 ????????語言模型 :對(duì)于任意的詞序列,它能夠計(jì)算出這個(gè)序列是一句

    2023年04月08日
    瀏覽(36)
  • 初步了解預(yù)訓(xùn)練語言模型BERT

    初步了解預(yù)訓(xùn)練語言模型BERT

    本文字?jǐn)?shù):: 4024 字 預(yù)計(jì)閱讀時(shí)間: 12 分鐘 BERT 是由Google提出的預(yù)訓(xùn)練語言模型,它基于 transformer 架構(gòu),被廣泛應(yīng)用于自然語言處理領(lǐng)域,是當(dāng)前自然語言處理領(lǐng)域最流行的預(yù)訓(xùn)練模型之一。而了解 BERT 需要先了解注意力機(jī)制與 Transformers 。 注意力機(jī)制 注意力機(jī)制(Atten

    2024年02月15日
    瀏覽(24)
  • BERT數(shù)據(jù)處理,模型,預(yù)訓(xùn)練

    首先讀取文本,每個(gè)文本必須包含兩個(gè)以上句子(為了第二個(gè)預(yù)訓(xùn)練任務(wù):判斷兩個(gè)句子,是否連續(xù))。paragraphs 其中一部分結(jié)果如下所示 上述已經(jīng)將數(shù)據(jù)處理完,最后看一下處理后的例子: 隨后就是把處理好的數(shù)據(jù),送入bert中。在 BERTEncoder 中,執(zhí)行如下代碼: 將編碼完后

    2024年02月13日
    瀏覽(17)
  • 【預(yù)訓(xùn)練語言模型】 使用Transformers庫進(jìn)行BERT預(yù)訓(xùn)練

    【預(yù)訓(xùn)練語言模型】 使用Transformers庫進(jìn)行BERT預(yù)訓(xùn)練

    基于 HuggingFace的Transformer庫,在Colab或Kaggle進(jìn)行預(yù)訓(xùn)練。 鑒于算力限制,選用了較小的英文數(shù)據(jù)集wikitext-2 目的 :跑通Mask語言模型的預(yù)訓(xùn)練流程 注意:在Kaggle上訓(xùn)練時(shí),最好將datasets更新到最新版(再重啟kernel),避免版本低報(bào)錯(cuò) colab和kaggle已經(jīng)預(yù)安裝transformers庫 加載數(shù)據(jù)

    2024年03月14日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包