国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

NLP——ELMO；BERT；Transformers

2年前作者：暖仔會(huì)飛分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了NLP——ELMO；BERT；Transformers。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ELMO

NLP——ELMO；BERT；Transformers

ELMO 簡(jiǎn)介

ELMo（Embeddings from Language Models）是一個(gè)在2018年由Allen AI研究所開發(fā)的新型深度語義詞嵌入（word embedding）。ELMo詞嵌入是基于上下文的，這意味著對(duì)于任何給定的詞，它的表示都會(huì)根據(jù)它出現(xiàn)的上下文而變化。 這是一個(gè)重要的進(jìn)步，因?yàn)閭鹘y(tǒng)的詞嵌入，如Word2Vec或GloVe，為每個(gè)詞提供一個(gè)固定的表示，不考慮詞在特定上下文中可能有的不同含義。
ELMo的嵌入是通過訓(xùn)練一個(gè)**雙向的語言模型（bi-directional language model）并使用模型的隱藏狀態(tài)作為詞的嵌入來產(chǎn)生的。**這個(gè)語言模型是一個(gè)雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)（Bi-LSTM），它從左到右（正向）和從右到左（反向）閱讀文本，然后將兩個(gè)方向的隱藏狀態(tài)拼接在一起，得到每個(gè)詞的嵌入。

ELMO 優(yōu)點(diǎn)

相較于以往的方法，ELMo具有幾個(gè)重要的優(yōu)點(diǎn)：

上下文感知：由于ELMo是基于上下文的，它能夠捕捉到詞義消歧的信息，例如詞“play”的不同含義在不同的上下文中。
預(yù)訓(xùn)練：和其他詞嵌入一樣，ELMo是預(yù)訓(xùn)練的，這意味著它可以被用作各種NLP任務(wù)的輸入，從而提高模型的性能。
深度表示：由于ELMo使用了深度神經(jīng)網(wǎng)絡(luò)（在這種情況下是Bi-LSTM），它可以捕捉到詞的復(fù)雜語義信息。

然而，與此同時(shí)，ELMo模型需要大量的計(jì)算資源和時(shí)間來訓(xùn)練，這是它的主要缺點(diǎn)。但一旦訓(xùn)練完成，可以將訓(xùn)練得到的模型用于各種NLP任務(wù)。
NLP——ELMO；BERT；Transformers

利用了多層的 hidden 表示

NLP——ELMO；BERT；Transformers

在傳統(tǒng)的RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）或者LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）中，通常會(huì)使用一個(gè)堆疊的結(jié)構(gòu)，也就是多層的LSTM。在這種結(jié)構(gòu)中，底層LSTM捕捉了一些局部和語法方面的信息，而頂層LSTM捕捉了一些更全局、更抽象的語義信息。這是因?yàn)榈讓拥腖STM處理的是原始的輸入詞，而頂層的LSTM處理的是底層LSTM的輸出，因此，頂層LSTM有更高層次的、更全局的視角。

然而，在傳統(tǒng)的多層LSTM中，我們通常只使用最頂層的隱藏狀態(tài)，忽略了底層的隱藏狀態(tài)。這可能會(huì)損失一些有用的信息。

ELMo的一個(gè)重要的創(chuàng)新就是使用了所有層次的隱藏狀態(tài)。 對(duì)于每個(gè)詞，ELMo的表示是所有層次隱藏狀態(tài)的加權(quán)平均。權(quán)重是通過訓(xùn)練學(xué)習(xí)的，不同的任務(wù)可能會(huì)賦予不同層次的隱藏狀態(tài)不同的權(quán)重。 這意味著，對(duì)于不同的任務(wù)，我們可能會(huì)更關(guān)注不同層次的隱藏狀態(tài)。例如，命名實(shí)體識(shí)別可能更關(guān)注底層的語法信息，而情感分析可能更關(guān)注頂層的語義信息。

通過這種方式，ELMo能夠捕捉到詞的深層次的語義信息，同時(shí)也考慮了詞的上下文信息。這使得ELMo在很多自然語言處理任務(wù)上都取得了非常好的效果。

ELMO 缺點(diǎn)

但是由于 ELMO 是基于 RNN 原理的模型，因此受制于 RNN 的幾個(gè)缺點(diǎn)：
值得注意的是：ELMo模型使用的是雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（Bi-LSTM）模型，它在兩個(gè)方向上分別訓(xùn)練模型——從左到右和從右到左。這兩個(gè)方向的LSTM是獨(dú)立的，它們沒有共享參數(shù)。然后，ELMo將兩個(gè)方向的隱藏狀態(tài)進(jìn)行拼接或者加權(quán)平均來得到詞的表示。
同時(shí) ELMO 還有以下缺陷：
- 計(jì)算成本高： Bi-LSTM需要在兩個(gè)方向上 分別進(jìn)行前向傳播和反向傳播，這使得它的計(jì)算成本比單向LSTM更高。 此外，LSTM模型本身就有很多參數(shù)，需要大量的計(jì)算資源和時(shí)間來訓(xùn)練。
- 無法并行化： 由于LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)，它需要**按照時(shí)間步驟的順序進(jìn)行計(jì)算，**這使得它無法進(jìn)行并行化計(jì)算。這也是為什么訓(xùn)練LSTM模型需要大量時(shí)間的原因。
- 可能損失長(zhǎng)距離信息： 雖然LSTM設(shè)計(jì)成可以處理梯度消失問題，從而捕捉到一定程度的長(zhǎng)距離依賴，但在實(shí)際應(yīng)用中，如果序列過長(zhǎng)，LSTM仍然可能無法捕捉到太長(zhǎng)距離的信息。

BERT

為了解決 ELMO 模型存在的諸多問題，BERT 應(yīng)運(yùn)而生

BERT (Bidirectional Encoder Representations from Transformers) 是一個(gè)基于Transformer的模型，與ELMo相比，有一些重要的改進(jìn)和優(yōu)點(diǎn)：
全方位的上下文感知： 雖然ELMo是一個(gè)上下文敏感的模型，但是它通過兩個(gè)單向的LSTM來分別捕獲上下文信息。BERT通過使用Transformer的自注意力機(jī)制，在每個(gè)位置都能捕獲雙向的上下文信息。 這使得BERT在理解上下文中的詞語時(shí)更為全面。
- 在ELMo中，雙向上下文信息的獲取是通過兩個(gè)獨(dú)立的、單向的長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）完成的。一個(gè)LSTM從左到右讀取序列，另一個(gè)從右到左讀取。每個(gè)LSTM只能獲取單向的上下文信息，然后將兩個(gè)方向的信息結(jié)合起來得到最后的詞表示。這種方式雖然能夠捕獲到雙向的上下文信息，但是因?yàn)閮蓚€(gè)方向的信息是獨(dú)立處理和結(jié)合的，所以被認(rèn)為是"淺"的雙向表示。
- 相比之下，BERT使用的是基于Transformer的模型，該模型采用自注意力機(jī)制（self-attention mechanism）來獲取雙向上下文信息。在自注意力機(jī)制中，每個(gè)詞的表示都會(huì)考慮到整個(gè)序列中所有詞的信息，而且這個(gè)過程是同時(shí)進(jìn)行的，不需要像LSTM那樣一步一步地處理。這樣，每個(gè)詞的表示都是在同時(shí)考慮到雙向上下文信息的情況下得到的，因此被認(rèn)為是"深"的雙向表示。
并行計(jì)算： BERT使用的 Transformer 結(jié)構(gòu)允許在計(jì)算時(shí)進(jìn)行并行化，相比于ELMo中使用的RNN（Recurrent Neural Network，如LSTM），BERT在訓(xùn)練和預(yù)測(cè)時(shí)都能更有效地利用硬件資源。
預(yù)訓(xùn)練任務(wù)的設(shè)計(jì)： BERT使用了兩種預(yù)訓(xùn)練任務(wù)，Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)。MLM任務(wù)允許模型在預(yù)測(cè)被遮蔽（masked）的詞時(shí)考慮到整個(gè)上下文，而NSP任務(wù)則讓模型理解句子間的關(guān)系。這兩種任務(wù)都使BERT在處理下游任務(wù)時(shí)具有更強(qiáng)的理解能力。
更強(qiáng)的性能： 在多種NLP任務(wù)上，BERT都比ELMo展現(xiàn)出了更好的性能。比如在閱讀理解、情感分類、命名實(shí)體識(shí)別等任務(wù)上，BERT都設(shè)立了新的性能標(biāo)準(zhǔn)。

雖然BERT在以上方面都優(yōu)于ELMo，但值得注意的是，BERT模型相比于ELMo更加復(fù)雜和參數(shù)更多，因此需要更多的計(jì)算資源和時(shí)間進(jìn)行訓(xùn)練。不過，和ELMo一樣，BERT模型一般也是預(yù)訓(xùn)練好后，用于各種下游任務(wù)，而不需要在每個(gè)特定任務(wù)上從頭開始訓(xùn)練。

BERT V.S. ELMO

NLP——ELMO；BERT；Transformers

從這張圖中清晰看出，對(duì) ELMO， $E_1$ 分別輸入兩個(gè) LSTM，在左邊的 LSTM 的第一層 $E_1$ 被隱層編碼，然后到第二個(gè)時(shí)間步 $E_2$ 的信息也被納入進(jìn)來，由此 $E_1$ 和 $E_2$ 的信息被模型綜合考慮、表示；對(duì)于逆向的 LSTM 也是如此
然而，雖然這種方法可以獲取雙向的上下文信息，但是由于正向和反向的信息是獨(dú)立處理的，具體來說，我們并沒有在同一時(shí)間考慮左右兩個(gè)方向的上下文。也就是說，**正向LSTM在處理序列時(shí)，并不知道反向LSTM的輸出，反之亦然。**因此，這種雙向表示可能沒有充分利用雙向上下文信息，只是生硬地拼接了雙向的上下文的表示使得表示更加豐富了。
但是 BERT 不同，BERT 沒有時(shí)間步的概念，因此，BERT通過使用Transformer的自注意力機(jī)制，在每個(gè)位置都能同時(shí)考慮整個(gè)輸入序列中的所有詞。從圖中可以看出，每個(gè)詞向量的表示都是結(jié)合所有的上下文信息。

NLP——ELMO；BERT；Transformers

兩種預(yù)訓(xùn)練任務(wù)

Object1: Masked Language Model

NLP——ELMO；BERT；Transformers

在 MLM 中，輸入序列的一部分詞會(huì)被替換為一個(gè)特殊的 [MASK] 標(biāo)記，然后模型的任務(wù)是預(yù)測(cè)這些被遮蔽的詞。這使得模型必須理解上下文，才能準(zhǔn)確地預(yù)測(cè)被遮蔽的詞。

Object2: Next sentence prediction

NLP——ELMO；BERT；Transformers

在 NSP 任務(wù)中，模型需要預(yù)測(cè)兩個(gè)句子是否是連續(xù)的，這使得模型必須理解句子間的關(guān)系。

訓(xùn)練細(xì)節(jié)

NLP——ELMO；BERT；Transformers

如何使用 BERT

NLP——ELMO；BERT；Transformers

BERT 應(yīng)用——垃圾郵件分類

NLP——ELMO；BERT；Transformers

只需要使用 [cls] 位置的信息進(jìn)行分類即可

Transformer

self-attention

NLP——ELMO；BERT；Transformers

具體的計(jì)算過程請(qǐng)參考我的另一篇博客：Transformer解讀之：Transformer 中的 Attention 機(jī)制

Multi-head Attention

NLP——ELMO；BERT；Transformers

Transformer Block

NLP——ELMO；BERT；Transformers

Position encoding

Transformer模型是一種處理序列數(shù)據(jù)的模型，它完全依賴于自注意力（Self-Attention）機(jī)制。這種機(jī)制允許模型為序列中的每個(gè)元素生成一個(gè)上下文相關(guān)的表示，這一表示不僅考慮到該元素本身，而且還考慮到其他元素。

然而，自注意力機(jī)制本身是不包含順序信息的，也就是說，它對(duì)輸入序列的順序不敏感。這在自然語言處理等需要考慮元素順序的任務(wù)中是一個(gè)問題。

為了解決這個(gè)問題，Transformer引入了位置編碼（Position Encoding）來加入序列中元素的位置信息。這種編碼是將每個(gè)位置 $i$ 編碼為一個(gè)向量，然后將這個(gè)向量加到對(duì)應(yīng)位置的元素的表示上。

位置編碼的設(shè)計(jì)需要滿足兩個(gè)條件：一是，不同位置的編碼需要不同；二是，它需要能夠表示出位置之間的相對(duì)關(guān)系。文章來源地址http://www.zghlxwxcb.cn/news/detail-487829.html

到了這里，關(guān)于NLP——ELMO；BERT；Transformers的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【NLP】BERT和原理揭示
????????BERT（來自transformer的雙向編碼器表示）是Google AI Language研究人員最近發(fā)表的一篇論文。它通過在各種NL
2024年02月15日
瀏覽(20)
[NLP] BERT模型參數(shù)量
BERT_base模型的110M的參數(shù)具體是如何組成的呢，我們一起來計(jì)算一下：剛好也能更深入地了解一下Transformer Encoder模型的架構(gòu)細(xì)節(jié)。借助transformers模塊查看一下模型的架構(gòu)：得到的模型參數(shù)為：其中，BERT模型的參數(shù)主要由三部分組成： Embedding層參數(shù) Transformer Encoder層參數(shù) L
2024年02月11日
瀏覽(24)
NLP之Bert實(shí)現(xiàn)文本分類
首先，概述一下代碼的主要目的和流程。主要目的：此代碼的主要目的是使用BERT模型進(jìn)行序列分類。具體來說，它似乎是在處理某種情感分析任務(wù)，因?yàn)榇a中讀取了標(biāo)簽和文本，并試圖用BERT模型來進(jìn)行分類（假設(shè)為正面或負(fù)面情感，因?yàn)?num_labels=2 ）。整體流程：導(dǎo)入
2024年02月05日
瀏覽(31)
NLP之Bert介紹和簡(jiǎn)單示例
官網(wǎng)訪問：https://huggingface.co/ 注意力模型，可以參考知乎博客：https://zhuanlan.zhihu.com/p/37601161 即適合于圖形和圖像，也適合于自然語言處理。可以幫助我們快速識(shí)別重點(diǎn)。例如在識(shí)別一張圖片的時(shí)候，我們并不知道哪個(gè)地方是重點(diǎn)。在開始讀一本書的時(shí)候，不知道哪個(gè)章節(jié)是
2024年02月05日
瀏覽(19)
nlp系列（7）實(shí)體識(shí)別（Bert）pytorch
本項(xiàng)目是使用Bert模型來進(jìn)行文本的實(shí)體識(shí)別。 Bert模型介紹可以查看這篇文章： NLP系列（2）文本分類（Bert）pytorch_bert文本分類-CSDN博客 Bert模型的模型結(jié)構(gòu)：數(shù)據(jù)網(wǎng)址：??????https://github.com/buppt//raw/master/data/people-relation/train.txt 實(shí)體1? 實(shí)體2? 關(guān)系文本輸入中文句子
2024年02月10日
瀏覽(19)
帶你熟悉NLP預(yù)訓(xùn)練模型：BERT
本文分享自華為云社區(qū)《【昇思技術(shù)公開課筆記-大模型】Bert理論知識(shí)》，作者： JeffDing。語言模型演變經(jīng)歷的幾個(gè)階段 word2vec/Glove將離散的文本數(shù)據(jù)轉(zhuǎn)換為固定長(zhǎng)度的靜態(tài)詞向量，后根據(jù)下游任務(wù)訓(xùn)練不同的語言模型 ELMo預(yù)訓(xùn)練模型將文本數(shù)據(jù)結(jié)合上下文信息，轉(zhuǎn)換為動(dòng)態(tài)
2024年01月22日
瀏覽(36)
論文筆記--TinyBERT: Distilling BERT for Natural Language Understanding
標(biāo)題：TinyBERT: Distilling BERT for Natural Language Understanding 作者：Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu 日期：2019 期刊：arxiv preprint ??文章提出了一種兩階段的BERT蒸餾模型TinyBERT。TinyBERT在GLUE上擊敗了所有當(dāng)前的SOTA蒸餾BERT模型[1]，且參數(shù)量?jī)H為
2024年02月15日
瀏覽(34)
【NLP】1、BERT | 雙向 transformer 預(yù)訓(xùn)練語言模型
論文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 出處：Google 在 BERT 之前的語言模型如 GPT 都是單向的模型，但 BERT 認(rèn)為雖然單向（從左到右預(yù)測(cè)）預(yù)測(cè)任務(wù)符合語言模型的建模過程，但對(duì)一些語言理解任務(wù)不太友好，因?yàn)橐斫庖痪湓捳f的是什么意思的話
2024年02月12日
瀏覽(18)
【Bert101】最先進(jìn)的 NLP 模型解釋【01/4】
????????BERT是來自【Bidirectional Encoder Representations from Transformers】變壓器的雙向編碼器表示的縮寫，是用于自然語言處理的機(jī)器學(xué)習(xí)（ML）模型。它由Google AI Language的研究人員于2018年開發(fā)，可作為瑞士軍刀解決方案，用于11 +最常見的語言任務(wù)，例如情感分析和命名實(shí)體識(shí)
2024年02月13日
瀏覽(18)
NLP/Natural Language Processing
自然語言處理( Natural Language Processing, NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向，也就是人們常說的「自然語言處理」，就是研究如何讓計(jì)算機(jī)讀懂人類語言，即將人的自然語言轉(zhuǎn)換為計(jì)算機(jī)可以閱讀的指令。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通
2024年02月03日
瀏覽(35)

<dd id="2rqds"><dl id="2rqds"></dl></dd>