国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

帶你熟悉NLP預(yù)訓(xùn)練模型：BERT

2年前作者：華為云開發(fā)者聯(lián)盟分類：Toy博客閱讀(35)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了帶你熟悉NLP預(yù)訓(xùn)練模型：BERT。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本文分享自華為云社區(qū)《【昇思技術(shù)公開課筆記-大模型】Bert理論知識(shí)》，作者： JeffDing。

NLP中的預(yù)訓(xùn)練模型

語言模型演變經(jīng)歷的幾個(gè)階段

word2vec/Glove將離散的文本數(shù)據(jù)轉(zhuǎn)換為固定長度的靜態(tài)詞向量，后根據(jù)下游任務(wù)訓(xùn)練不同的語言模型
ELMo預(yù)訓(xùn)練模型將文本數(shù)據(jù)結(jié)合上下文信息，轉(zhuǎn)換為動(dòng)態(tài)詞向量，后根據(jù)下游任務(wù)訓(xùn)練不同的語言模型
BERT同樣將文本數(shù)據(jù)轉(zhuǎn)換為動(dòng)態(tài)詞向量，能夠更好地捕捉句子級(jí)別的信息與語境信息，后續(xù)只需對(duì)BERT參數(shù)進(jìn)行微調(diào)，僅重新訓(xùn)練最后的輸出層即可適配下游任務(wù)
GPT等預(yù)訓(xùn)練語言模型主要用于文本生成類任務(wù)，需要通過prompt方法來應(yīng)用于下游任務(wù)，指導(dǎo)模型生成特定的輸出。

BERT模型本質(zhì)上是結(jié)合了ELMo模型與GPT模型的優(yōu)勢(shì)。

相比于ELMo，BERT僅需改動(dòng)最后的輸出層，而非模型架構(gòu)，便可以在下游任務(wù)中達(dá)到很好的效果；
相比于GPT，BERT在處理詞元表示時(shí)考慮到了雙向上下文的信息；

Bert介紹

2018年Google發(fā)布了BERT（來自Transformer的雙向自編碼器）預(yù)訓(xùn)練模型，旨在通過聯(lián)合左側(cè)和右側(cè)的上下文，從未標(biāo)記文本中預(yù)訓(xùn)練出一個(gè)深度雙向表示模型。因此，BERT可以通過增加一個(gè)額外的輸出層來進(jìn)行微調(diào)，就可以達(dá)到為廣泛的任務(wù)創(chuàng)建State-of-the-arts 模型的效果，比如QA、語言推理任務(wù)。

當(dāng)時(shí)將預(yù)訓(xùn)練模應(yīng)用于下游任務(wù)的策略通常有兩種：基于特征的（feature-based）和基于微調(diào)（fine-tuning）；前者比如ELMo，后者比如OpenAI GPT;

這兩種策略在預(yù)訓(xùn)練期間具有相同的目標(biāo)函數(shù)，在預(yù)訓(xùn)練期間，它們使用單向語言模型來學(xué)習(xí)一般的語言表示。但當(dāng)前對(duì)預(yù)訓(xùn)練方法的限制（尤其是對(duì)基于微調(diào)的方法）是標(biāo)準(zhǔn)語言模型是單向(unidirectional）的，所以限制了在預(yù)訓(xùn)練階段可選的模型結(jié)構(gòu)體系。

比如GPT是從左到右的，每個(gè)token只能關(guān)注到前一個(gè)token的self-attention layers。這種局限對(duì)于句子級(jí)任務(wù)(sentence-level tasks)來說還不是很打緊，但是對(duì)于token-level tasks（比如QA）就很致命，所以結(jié)合兩個(gè)方向的上下文信息至關(guān)重要。

Bert Input

第一步：Tokenization，輸入的句子經(jīng)過分詞后，首尾添加[CLS]與[SEP]特殊字符，后轉(zhuǎn)換為數(shù)字id

第二步：Embedding，輸入到BERT模型的信息由三部分內(nèi)容組成：

表示內(nèi)容的token ids

表示位置的position ids

用于區(qū)分不同句子的token type ids

將三種信息分別輸入Embedding層

如果出現(xiàn)輸入是句子對(duì)的情況呢？

BERT Architecture

BERT由Encoder Layer堆疊而成，Encoder Layer的組成與Transformer的Encoder Layer一致：

自注意力層 + 前饋神經(jīng)網(wǎng)絡(luò)，中間通過residual connection和LayerNorm連接

BERT（Bidirectional Encoder Representation from Transformers）是由Transformer的Encoder層堆疊而成，BERT的模型大小有如下兩種：

BERT BASE：與Transformer參數(shù)量齊平，用于比較模型效果（110M parameters）

BERT LARGE：在BERT BASE基礎(chǔ)上擴(kuò)大參數(shù)量，達(dá)到了當(dāng)時(shí)各任務(wù)最好的結(jié)果（340M parameters）

BERT Output

BERT會(huì)針對(duì)每一個(gè)位置輸出大小為hidden size的向量，在下游任務(wù)中，會(huì)根據(jù)任務(wù)內(nèi)容的不同，選取不同的向量放入輸出層

pooler output

例如，在詐騙郵件分類任務(wù)中，我們會(huì)將表示句子級(jí)別信息的[CLS]?token所對(duì)應(yīng)的向量，經(jīng)過Bert Pooler放入classfier中，得到對(duì)spam/not spam分類的預(yù)測(cè)。

我們一般稱[CLS]經(jīng)過線性層+激活函數(shù)tanh的輸出為pooler output，用于句子級(jí)別的分類/回歸任務(wù)

sequence output

例如，在詞性標(biāo)注任務(wù)（POS Tagging）中，我們需要獲得每一個(gè)token所對(duì)應(yīng)的類別，因此需要將[CLS]和[SEP]中有實(shí)際意義的token輸出，分別輸入對(duì)應(yīng)的classifier中。

我們一般稱BERT輸出的每個(gè)位置對(duì)應(yīng)的vector為sequence output

BERT的不同下游任務(wù)

BERT預(yù)訓(xùn)練

BERT預(yù)訓(xùn)練任務(wù)有兩種：Masked Language Modelling（MLM）和 Next Sentence Prediction （NSP）。

MLM：隨機(jī)遮蓋輸入句子中的一些詞語，并預(yù)測(cè)被遮蓋的詞語是什么（完形填空）

NSP：預(yù)測(cè)兩個(gè)句子是不是上下文的關(guān)系

Masked Language Model（MLM）

Masked Language Modelling（MLM）捕捉詞語級(jí)別的信息

在輸入中隨機(jī)遮蓋15%的token（即將token替換為[MASK]）

將[MASK]位置對(duì)應(yīng)的BERT輸出放入輸出層中，預(yù)測(cè)被遮蓋的token

在將[MASK]位置所對(duì)應(yīng)的BERT輸出放入輸出層后，本質(zhì)上是在進(jìn)行一個(gè)多分類任務(wù)

為了使得預(yù)訓(xùn)練任務(wù)和推理任務(wù)盡可能接近，BERT在隨機(jī)遮蓋的15%的tokens中又進(jìn)行了進(jìn)一步的處理：

80%的概率替換為[MASK]

10%的概率替換為文本中的隨機(jī)詞

10%的概率不進(jìn)行替換，保持原有的詞元

Next Sentence Prediction（NSP）

Next Sentence Prediction (NSP) 捕捉句子級(jí)別信息，簡(jiǎn)單來說是一個(gè)針對(duì)句子對(duì)的分類問題，判斷一組句子中，句子B是否為句子A的下一句（IsNext or NotNext）

Bert微調(diào)

在下游任務(wù)中，我們使用少量的標(biāo)注數(shù)據(jù)（labelled data）對(duì)預(yù)訓(xùn)練Transformer編碼器的所有參數(shù)進(jìn)行微調(diào)，額外的輸出層將從頭開始訓(xùn)練。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-815031.html

點(diǎn)擊關(guān)注，第一時(shí)間了解華為云新鮮技術(shù)~

到了這里，關(guān)于帶你熟悉NLP預(yù)訓(xùn)練模型：BERT的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[NLP] BERT模型參數(shù)量
BERT_base模型的110M的參數(shù)具體是如何組成的呢，我們一起來計(jì)算一下：剛好也能更深入地了解一下Transformer Encoder模型的架構(gòu)細(xì)節(jié)。借助transformers模塊查看一下模型的架構(gòu)：得到的模型參數(shù)為：其中，BERT模型的參數(shù)主要由三部分組成： Embedding層參數(shù) Transformer Encoder層參數(shù) L
2024年02月11日
瀏覽(23)
帶你讀論文第十一期：上海人工智能實(shí)驗(yàn)室孫偉高博士，分享大模型分布式訓(xùn)練方法！...
?Datawhale論文? 來源：WhalePaper，負(fù)責(zé)人：芙蕖由Datawhale團(tuán)隊(duì)成員發(fā)起，對(duì)目前學(xué)術(shù)論文中比較成熟的 Topic 和開源方案進(jìn)行分享，通過一起閱讀、分享論文學(xué)習(xí)的方式幫助大家更好地“高效+全面+自律”學(xué)習(xí)，讓大家都有所收獲和提升！方向包括自然語言處理（NLP）、計(jì)算機(jī)視
2024年04月23日
瀏覽(29)
NLP文本匹配任務(wù)Text Matching [有監(jiān)督訓(xùn)練]：PointWise（單塔）、DSSM（雙塔）、Sentence BERT（雙塔）項(xiàng)目實(shí)踐
本項(xiàng)目對(duì)3種常用的文本匹配的方法進(jìn)行實(shí)現(xiàn)：PointWise（單塔）、DSSM（雙塔）、Sentence BERT（雙塔）。文本匹配（Text Matching）是 NLP 下的一個(gè)分支，通常用于計(jì)算兩個(gè)句子之間的相似程度，在推薦、推理等場(chǎng)景下都有著重要的作用。舉例來講，今天我們有一堆評(píng)論數(shù)據(jù)，我們
2024年02月12日
瀏覽(26)
【Bert101】最先進(jìn)的 NLP 模型解釋【01/4】
????????BERT是來自【Bidirectional Encoder Representations from Transformers】變壓器的雙向編碼器表示的縮寫，是用于自然語言處理的機(jī)器學(xué)習(xí)（ML）模型。它由Google AI Language的研究人員于2018年開發(fā)，可作為瑞士軍刀解決方案，用于11 +最常見的語言任務(wù)，例如情感分析和命名實(shí)體識(shí)
2024年02月13日
瀏覽(18)
帶你上手基于Pytorch和Transformers的中文NLP訓(xùn)練框架
本文分享自華為云社區(qū)《全套解決方案：基于pytorch、transformers的中文NLP訓(xùn)練框架，支持大模型訓(xùn)練和文本生成，快速上手，海量訓(xùn)練數(shù)據(jù)》，作者：汀丶。目標(biāo) ：基于 pytorch 、 transformers 做中文領(lǐng)域的nlp開箱即用的訓(xùn)練框架，提供全套的訓(xùn)練、微調(diào)模型（包括大模型、文本
2024年02月11日
瀏覽(14)
【NLP】BERT，BART和T5等LLM模型的比較
????????在這篇博文中，我將討論像BERT，BART和T5這樣的大型語言模型。到2020年，LLM領(lǐng)域取得的主要進(jìn)展包括這些模型的開發(fā)。BERT和T5由Google開發(fā)，BART由Meta開發(fā)。我將根據(jù)這些模型的發(fā)布日期依次介紹這些模型的詳細(xì)信息。在之前的博客文章自然語言處理的自回歸模型中
2024年02月15日
瀏覽(16)
【深度學(xué)習(xí)】預(yù)訓(xùn)練語言模型-BERT
????????BERT 是一種預(yù)訓(xùn)練語言模型（pre-trained language model, PLM），其全稱是Bidirectional Encoder Representations from Transformers。下面從語言模型和預(yù)訓(xùn)練開始展開對(duì)預(yù)訓(xùn)練語言模型BERT的介紹。 1-1 語言模型 ????????語言模型：對(duì)于任意的詞序列，它能夠計(jì)算出這個(gè)序列是一句
2023年04月08日
瀏覽(36)
初步了解預(yù)訓(xùn)練語言模型BERT
本文字?jǐn)?shù)：： 4024 字預(yù)計(jì)閱讀時(shí)間： 12 分鐘 BERT 是由Google提出的預(yù)訓(xùn)練語言模型，它基于 transformer 架構(gòu)，被廣泛應(yīng)用于自然語言處理領(lǐng)域，是當(dāng)前自然語言處理領(lǐng)域最流行的預(yù)訓(xùn)練模型之一。而了解 BERT 需要先了解注意力機(jī)制與 Transformers 。注意力機(jī)制注意力機(jī)制（Atten
2024年02月15日
瀏覽(24)
BERT數(shù)據(jù)處理，模型，預(yù)訓(xùn)練
首先讀取文本，每個(gè)文本必須包含兩個(gè)以上句子（為了第二個(gè)預(yù)訓(xùn)練任務(wù)：判斷兩個(gè)句子，是否連續(xù)）。paragraphs 其中一部分結(jié)果如下所示上述已經(jīng)將數(shù)據(jù)處理完，最后看一下處理后的例子：隨后就是把處理好的數(shù)據(jù)，送入bert中。在 BERTEncoder 中，執(zhí)行如下代碼：將編碼完后
2024年02月13日
瀏覽(17)
【預(yù)訓(xùn)練語言模型】使用Transformers庫進(jìn)行BERT預(yù)訓(xùn)練
基于 HuggingFace的Transformer庫，在Colab或Kaggle進(jìn)行預(yù)訓(xùn)練。鑒于算力限制，選用了較小的英文數(shù)據(jù)集wikitext-2 目的：跑通Mask語言模型的預(yù)訓(xùn)練流程注意：在Kaggle上訓(xùn)練時(shí)，最好將datasets更新到最新版（再重啟kernel），避免版本低報(bào)錯(cuò) colab和kaggle已經(jīng)預(yù)安裝transformers庫加載數(shù)據(jù)
2024年03月14日
瀏覽(27)