国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文解讀:Bert原理深入淺出

這篇具有很好參考價(jià)值的文章主要介紹了論文解讀:Bert原理深入淺出。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

摘取于https://www.jianshu.com/p/810ca25c4502

任務(wù)1:Masked Language Model
Maked LM 是為了解決單向信息問(wèn)題,現(xiàn)有的語(yǔ)言模型的問(wèn)題在于,沒(méi)有同時(shí)利用雙向信息,如 ELMO 號(hào)稱是雙向LM,但實(shí)際上是兩個(gè)單向 RNN 構(gòu)成的語(yǔ)言模型的拼接,由于時(shí)間序列的關(guān)系,RNN模型預(yù)測(cè)當(dāng)前詞只依賴前面出現(xiàn)過(guò)的詞,對(duì)于后面的信息無(wú)從得知。

那么如何同時(shí)利用好前面的詞和后面的詞的語(yǔ)義呢?Bert 提出 Masked Language Model,也就是隨機(jī)遮住句子中部分 Token,模型再去通過(guò)上下文語(yǔ)義去預(yù)測(cè) Masked 的詞,通過(guò)調(diào)整模型的參數(shù)使得模型預(yù)測(cè)正確率盡可能大。

怎么理解這一邏輯,Bert 預(yù)訓(xùn)練過(guò)程就是模仿我們學(xué)習(xí)語(yǔ)言的過(guò)程,要準(zhǔn)確的理解一個(gè)句子或一段文本的語(yǔ)義,就要學(xué)習(xí)上下文關(guān)系,從上下文語(yǔ)義來(lái)推測(cè)空缺單詞的含義。而 Bert 的做法模擬了英語(yǔ)中的完形填空,隨機(jī)將一些單詞遮住,讓 Bert 模型去預(yù)測(cè)這個(gè)單詞,以此達(dá)到學(xué)習(xí)整個(gè)文本語(yǔ)義的目的。

那么 Bert 如何做到”完形填空“的呢?

隨機(jī) mask 預(yù)料中 15% 的 Token,然后預(yù)測(cè) [MASK] Token,與 masked token 對(duì)應(yīng)的最終隱藏向量被輸入到詞匯表上的 softmax 層中。這雖然確實(shí)能訓(xùn)練一個(gè)雙向預(yù)訓(xùn)練模型,但這種方法有個(gè)缺點(diǎn),因?yàn)樵陬A(yù)訓(xùn)練過(guò)程中隨機(jī) [MASK] Token 由于每次都是全部 mask,預(yù)訓(xùn)練期間會(huì)記住這些 MASK 信息,但是在fine-tune期間從未看到過(guò) [MASK] Token,導(dǎo)致預(yù)訓(xùn)練和 fine-tune 信息不匹配。

而為了解決預(yù)訓(xùn)練和 fine-tune 信息不匹配,Bert 并不總是用實(shí)際的 [MASK] Token 替換 masked 詞匯。

my dog is hairy → my dog is [MASK] 80%選中的詞用[MASK]代替
my dog is hairy → my dog is apple  10%將選中的詞用任意詞代替
my dog is hairy → my dog is hairy  10%選中的詞不發(fā)生變化

為什么 15% 的 Token 不完全 MASK?如果只有 MASK,這個(gè)預(yù)訓(xùn)練模型是有偏置的,也就是只能學(xué)到一種方式,用上下文去預(yù)測(cè)一個(gè)詞,這導(dǎo)致 fine-tune 丟失一部分信息。

加上 10% 的隨機(jī)詞和 10% 的真實(shí)值是讓模型知道,每個(gè)詞都有意義,除了要學(xué)習(xí)上下文信息,還需要提防每個(gè)詞,因?yàn)槊總€(gè)詞都不一定是對(duì)的,對(duì)于 Bert 來(lái)說(shuō),每個(gè)詞都需要很好的理解和預(yù)測(cè)。

有些人會(huì)疑惑,加了隨機(jī) Token,會(huì)讓模型產(chǎn)生疑惑,從而不能學(xué)到真實(shí)的語(yǔ)義嗎?對(duì)于人來(lái)說(shuō),完形填空都不一定能做對(duì),而將文本中某些詞隨機(jī)替換,更是難以理解,從概率角度來(lái)說(shuō),隨機(jī) Token 占比只有 15% * 10% = 1.5%,預(yù)料足夠的情況下,這并不會(huì)影響模型的性能。

因?yàn)?[MASK] Token 占比變小,且預(yù)測(cè)難度加大的原因,所以 MASK 會(huì)花更多時(shí)間。

任務(wù)2:Next Sentence Prediction
在許多下游任務(wù)中,如問(wèn)答系統(tǒng) QA 和自然語(yǔ)言推理 NLI,都是建立在理解兩個(gè)文本句子之間的關(guān)系基礎(chǔ)上,這不是語(yǔ)言模型能直接捕捉到的。

為了訓(xùn)練一個(gè)理解句子關(guān)系的模型,作者提出 Next Sentence Prediction,也即是預(yù)訓(xùn)練一個(gè)下一句預(yù)測(cè)的二分類任務(wù),這個(gè)任務(wù)就是每次訓(xùn)練前都會(huì)從語(yǔ)料庫(kù)中隨機(jī)選擇句子 A 和句子 B,50% 是正確的相鄰的句子,50% 是隨機(jī)選取的一個(gè)句子,這個(gè)任務(wù)在預(yù)訓(xùn)練中能達(dá)到 97%-98% 的準(zhǔn)確率,并且能很顯著的提高 QA 和 NLI 的效果。

Input = [CLS] the man went to [MASK] store [SEP]
        he bought a gallon [MASK] milk [SEP]
Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP]
        penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

模型通過(guò)對(duì) Masked LM 任務(wù)和 Next Sentence Prediction 任務(wù)進(jìn)行聯(lián)合訓(xùn)練,使模型輸出的每個(gè)字 / 詞的向量表示都能盡可能全面、準(zhǔn)確地刻畫輸入文本(單句或語(yǔ)句對(duì))的整體信息,為后續(xù)的微調(diào)任務(wù)提供更好的模型參數(shù)初始值。

作者:隨時(shí)學(xué)丫
鏈接:https://www.jianshu.com/p/810ca25c4502
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-674554.html

到了這里,關(guān)于論文解讀:Bert原理深入淺出的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深入淺出Pytorch函數(shù)——torch.tensor

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出TensorFlow2函數(shù)——tf.constant · 深入淺出Pytorch函數(shù)——torch.tensor · 深入淺出Pytorch函數(shù)——torch.as_tensor · 深入淺出Pytorch函數(shù)——torch.Tensor · 深入淺出PaddlePaddle函數(shù)——paddle.to_tensor 基于 data 構(gòu)建一個(gè)沒(méi)有梯度歷史

    2024年02月04日
    瀏覽(100)
  • 深入淺出Pytorch函數(shù)——torch.arange

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出TensorFlow2函數(shù)——tf.range · 深入淺出Pytorch函數(shù)——torch.arange · 深入淺出PaddlePaddle函數(shù)——paddle.arange 語(yǔ)法 當(dāng) dtype 表示浮點(diǎn)類型時(shí),為了避免浮點(diǎn)計(jì)算誤差,建議給 end 加上一個(gè)極小值 epsilon ,使邊界可以更加明

    2024年02月04日
    瀏覽(100)
  • 深入淺出Pytorch函數(shù)——torch.squeeze

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.squeeze · 深入淺出Pytorch函數(shù)——torch.unsqueeze 將輸入張量形狀為1的維度去除并返回。比如輸入向量的形狀為 A × 1 × B × 1 × C × 1 × D Atimes1times Btimes1times Ctimes1times D A × 1 × B × 1 × C × 1 ×

    2024年02月16日
    瀏覽(90)
  • 深入淺出Pytorch函數(shù)——torch.maximum

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.max · 深入淺出Pytorch函數(shù)——torch.maximum 計(jì)算 input 和 other 的元素最大值。 語(yǔ)法 參數(shù) input :[ Tensor ] 輸入張量 other :[ Tensor ] 輸入的第二個(gè)張量 實(shí)例

    2024年02月15日
    瀏覽(95)
  • 深入淺出Pytorch函數(shù)——torch.max

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.max · 深入淺出Pytorch函數(shù)——torch.maximum torch.max 有三種輸入形式,根據(jù)其輸入形式及參數(shù)的不同有下列三種返回形式: torch.max(input) :返回輸入張量所有元素的最大值。 torch.max(input, dim, keep

    2024年02月15日
    瀏覽(92)
  • 深入淺出Pytorch函數(shù)——torch.zeros

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.Tensor · 深入淺出Pytorch函數(shù)——torch.ones · 深入淺出Pytorch函數(shù)——torch.zeros · 深入淺出Pytorch函數(shù)——torch.full · 深入淺出Pytorch函數(shù)——torch.ones_like · 深入淺出Pytorch函數(shù)——torch.zeros_like · 深

    2024年02月07日
    瀏覽(97)
  • 深入淺出Pytorch函數(shù)——torch.ones

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.Tensor · 深入淺出Pytorch函數(shù)——torch.ones · 深入淺出Pytorch函數(shù)——torch.zeros · 深入淺出Pytorch函數(shù)——torch.full · 深入淺出Pytorch函數(shù)——torch.ones_like · 深入淺出Pytorch函數(shù)——torch.zeros_like · 深

    2023年04月26日
    瀏覽(125)
  • 深入淺出Pytorch函數(shù)——torch.exp

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出TensorFlow2函數(shù)——tf.exp · 深入淺出TensorFlow2函數(shù)——tf.math.exp · 深入淺出Pytorch函數(shù)——torch.exp · 深入淺出PaddlePaddle函數(shù)——paddle.exp 對(duì)輸入 input 逐元素進(jìn)行以自然數(shù) e e e 為底指數(shù)運(yùn)算。 語(yǔ)法 參數(shù) input :[ Te

    2024年02月11日
    瀏覽(90)
  • 深入淺出Pytorch函數(shù)——torch.t

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出TensorFlow2函數(shù)——tf.transpose · 深入淺出Pytorch函數(shù)——torch.t · 深入淺出Pytorch函數(shù)——torch.transpose · 深入淺出PaddlePaddle函數(shù)——paddle.transpose 語(yǔ)法 參數(shù) input : [Tensor] 輸入的張量。 返回值 被轉(zhuǎn)置的張量。 實(shí)例

    2024年02月11日
    瀏覽(91)
  • 深入淺出Pytorch函數(shù)——torch.Tensor.backward

    分類目錄:《深入淺出Pytorch函數(shù)》總目錄 相關(guān)文章: · 深入淺出Pytorch函數(shù)——torch.Tensor 計(jì)算當(dāng)前張量相對(duì)于圖的梯度,該函數(shù)使用鏈?zhǔn)椒▌t對(duì)圖進(jìn)行微分。如果張量不是一個(gè)標(biāo)量(即其數(shù)據(jù)具有多個(gè)元素)并且需要梯度,則函數(shù)還需要指定梯度,指定的梯度應(yīng)該是一個(gè)與

    2024年02月15日
    瀏覽(89)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包