国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文筆記--ERNIE: Enhanced Language Representation with Informative Entities

2年前作者：Isawany分類：Toy博客閱讀(16)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了論文筆記--ERNIE: Enhanced Language Representation with Informative Entities。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1. 文章簡(jiǎn)介

標(biāo)題：ERNIE: Enhanced Language Representation with Informative Entities
作者：Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
日期：2019
期刊：ACL

2. 文章概括

??文章提出了ERNIE(Enhanced Language Representation with Informative Entities)，一種可以將外部知識(shí)融合進(jìn)入預(yù)訓(xùn)練模型的方法。數(shù)值實(shí)驗(yàn)表明，ERNIE可以提升一些知識(shí)驅(qū)動(dòng)的下游任務(wù)的表現(xiàn)，且在其它NLP任務(wù)上效果基本持平SOTA。

3 文章重點(diǎn)技術(shù)

3.1 模型框架

??給定token序列，其中為序列長(zhǎng)度，令表示對(duì)應(yīng)的實(shí)體序列，其中為實(shí)體數(shù)。一般來說，這是因?yàn)椴皇敲總€(gè)token都可以映射為知識(shí)圖譜(KG)中的實(shí)體(entity)，且一個(gè)實(shí)體可能對(duì)應(yīng)多個(gè)token，比如"bob dylan"兩個(gè)token對(duì)應(yīng)一個(gè)實(shí)體"Bob Dylan"。記所有token的詞表為，KG中所有實(shí)體的集合為。如果對(duì)，存在與其對(duì)應(yīng)的實(shí)體，則我們用表示這種對(duì)齊關(guān)系。特別地，針對(duì)上述多個(gè)token對(duì)應(yīng)單個(gè)實(shí)體的情況，我們將實(shí)體對(duì)齊給第一個(gè)token，例如句子中出現(xiàn)"bob dylan…"時(shí)， $\text{"Bob Dylan"} class="katex-html">f("bob")="Bob?Dylan"$ 。
??如下圖所示，ERNIE的整體框架分為兩部分：1) T-Encoder(Textual encoder)，用于捕捉基本的詞義和句法信息；2) K-Encoder(Knowledgeable encoder)，用于將外部知識(shí)融合進(jìn)入模型。記T-Encoder的層數(shù)為，K-Encoder的層數(shù)為。
論文筆記--ERNIE: Enhanced Language Representation with Informative Entities,論文閱讀,論文閱讀,bert,ERNIE,知識(shí)圖譜,實(shí)體
??具體來說，給定輸入序列和對(duì)應(yīng)的實(shí)體序列，T-encoder層首先將token序列、segment序列和位置序列輸入得到詞匯和句法層面的特征 $\dots, \bold{w}_n\} = \text{T-Encoder}(\{w_1, \dots, w_n\}) class="katex-html">{w1?,…,wn?}=T-Encoder({w1?,…,wn?})$ ，其中T-Encoder結(jié)構(gòu)和BERT[1]相同，基本架構(gòu)為Transformer的Encoder層。
??然后將上述特征傳入到K-Encoder層。K-Encoder還會(huì)接受外部知識(shí)信息，首先我們會(huì)通過TransE生成對(duì)應(yīng)的預(yù)訓(xùn)練實(shí)體嵌入 $\dots, \bold{e}_m\} class="katex-html">{e1?,…,em?}$ ，然后將該嵌入同上述特征 $\dots, \bold{w}_n\} class="katex-html">{w1?,…,wn?}$ 一起輸入K-Encoder層從而得到融合外部知識(shí)的輸出嵌入： $\dots, \bold{w}_n^o\},\{\bold{e}_1^o, \dots, \bold{e}_m^o\} = \text{K-Encoder}(\{\bold{w}_1, \dots, \bold{w}_n\},\{\bold{e}_1, \dots, \bold{e}_m\}) class="katex-html">{w1o?,…,wno?},{e1o?,…,emo?}=K-Encoder({w1?,…,wn?},{e1?,…,em?})$ ，上述輸出嵌入后續(xù)可用來作為特征參與下游任務(wù)。

3.2 K-Encoder(Knowledgeable Encoder)

??如上圖所示，K-Encoder包含堆疊的聚合器，每個(gè)聚合器包含token和實(shí)體兩部分輸入。在第 $i$ 個(gè)聚合器中，輸入為來自上層聚合器的嵌入 $\{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\}$ 和實(shí)體嵌入 $\{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\}$ ，然后將token和實(shí)體嵌入分別傳入到兩個(gè)多頭自注意力機(jī)制MH-ATTs得到各自的輸出： $\begin{cases}\{\bold{\tilde{w}}_1^{(i)}, \dots, \bold{\tilde{w}}_n^{(i)}\} = \text{MH-ATT}(\{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\})\\ \{\bold{\tilde{e}}_1^{(i)}, \dots, \bold{\tilde{e}}_m^{(i)}\} = \text{MH-ATT}(\{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\})\end{cases}$ 。然后模型通過將每個(gè)token與其對(duì)應(yīng)的實(shí)體進(jìn)行拼接，將外部實(shí)體信息融合進(jìn)入嵌入。具體來說，針對(duì)一個(gè)有與之對(duì)應(yīng)的實(shí)體的token，假設(shè) $e_k=f(w_j)$ ，則 $\bold{h}_j = \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} + \bold{\tilde{W}}_e^{(i)} \bold{\tilde{e}}_k^{(i)} + \bold{\tilde}^{(i)})$ 為整合了實(shí)體和token信息的隱藏層輸出， $\bold{w}_j^{(i)} = \sigma (\bold{W}_t^{(i)} \bold{h}_j + \bold{\tilde}_t^{(i)})\\\bold{e}_k^{(i)} = \sigma (\bold{W}_e^{(i)} \bold{h}_j + \bold{\tilde}_e^{(i)})$ 表示當(dāng)前聚合器的輸出嵌入，其中 $\sigma$ 為GELU激活函數(shù)。對(duì)于沒有與之對(duì)應(yīng)實(shí)體的token，只需要把上述涉及 $e$ 的部分拿掉即可： $\bold{h}_j = \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} + \bold{\tilde}^{(i)})\\\bold{w}_j^{(i)} = \sigma (\bold{W}_t^{(i)} \bold{h}_j + \bold{\tilde}_t^{(i)})$

3.3 預(yù)訓(xùn)練任務(wù)

??為了將知識(shí)融合進(jìn)入語言表達(dá)，文章提出了一種新的預(yù)訓(xùn)練任務(wù)：dEA(denoising entity auto-encoder)：隨機(jī)掩碼一些token-entity的對(duì)齊，然后讓模型給予對(duì)齊的tokens來預(yù)測(cè)被掩碼的實(shí)體。具體來說，給定輸入序列 $\{w_1, \dots, w_n\}$ 和對(duì)應(yīng)的實(shí)體序列 $\{e_1, \dots, e_m\}$ ，通過下述公示預(yù)測(cè)token $w_i$ 對(duì)應(yīng)的實(shí)體分布： $p(e_j|w_i) = \frac {\exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_j)}{\sum_{k=1}^m \exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_k)}$ 。
??考慮到實(shí)際對(duì)齊過程中可能存在一些錯(cuò)誤，我們?cè)黾尤缦虏呗裕?）5%的時(shí)間用隨機(jī)的實(shí)體替代當(dāng)前實(shí)體，使得模型糾正token-實(shí)體對(duì)齊錯(cuò)誤的情況 2）15%的時(shí)間將token-實(shí)體對(duì)齊進(jìn)行掩碼，使得模型可以糾正當(dāng)實(shí)體對(duì)齊為被識(shí)別到的情況 3）其余時(shí)間保持token-實(shí)體對(duì)齊不變，從而使得模型學(xué)習(xí)到token和實(shí)體之間的對(duì)齊方法。
??最終，ERNIE使用MLM、NSP和上述dEA三種訓(xùn)練目標(biāo)。

3.4 微調(diào)

??類似于BERT，我們使用[CLS]的嵌入作為句子的最終嵌入表示來進(jìn)行分類。針對(duì)關(guān)系分類任務(wù)，我們?cè)黾覽HD]和[TL]表示head/tail實(shí)體的開頭和結(jié)尾；針對(duì)實(shí)體抽取任務(wù)，我們?cè)黾覽ENT]表示實(shí)體位置。

4. 文章亮點(diǎn)

??文章提出了一種可以將外部信息融合至預(yù)訓(xùn)練的ERNIE模型。實(shí)驗(yàn)表明，ERNIE可以有效地將KG中的信息注入到預(yù)訓(xùn)練模型，從而使得模型在處理實(shí)體提取、關(guān)系分類等需要外部知識(shí)的任務(wù)時(shí)更加出色，且實(shí)驗(yàn)證明外部知識(shí)可以幫助模型充分利用少量的訓(xùn)練集。

5. 原文傳送門

ERNIE: Enhanced Language Representation with Informative Entities

6. References

[1] 論文筆記–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[2] 百度ERNIE論文筆記–ERNIE: Enhanced Representation through Knowledge Integration文章來源地址http://www.zghlxwxcb.cn/news/detail-600349.html

到了這里，關(guān)于論文筆記--ERNIE: Enhanced Language Representation with Informative Entities的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

NEQR: novel enhanced quantum representation
?? NEQR利用量子疊加和量子糾纏的特性，將數(shù)字圖像轉(zhuǎn)換為量子態(tài)表示，并通過量子門操作進(jìn)行處理和操作。相較于傳統(tǒng)的經(jīng)典圖像表示方法，NEQR具有更高的圖像壓縮率和更強(qiáng)的安全性，能夠在保持圖像質(zhì)量的同時(shí)實(shí)現(xiàn)更小的存儲(chǔ)空間。此外，NEQR還可以用于實(shí)現(xiàn)基于量子計(jì)
2023年04月27日
瀏覽(17)
【論文閱讀隨筆】RoPE/旋轉(zhuǎn)編碼：ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
絕對(duì)位置編碼比較簡(jiǎn)單，加或乘一個(gè)有次序的數(shù) 實(shí)現(xiàn)相對(duì)位置編碼，也即意味著，要蘊(yùn)含位置差的信息：假設(shè)m是某個(gè)token的位置信息，n是另一個(gè)token的位置信息，要有類似 m ? n m-n m ? n 的信息，比較容易想到復(fù)數(shù)乘法會(huì)產(chǎn)生 m ? n m-n m ? n ，以及復(fù)數(shù)乘法和復(fù)數(shù)內(nèi)積的性
2024年03月11日
瀏覽(22)
VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 論文閱讀筆記
寫在前面 ??又是一周周末，在家的時(shí)間感覺過得很快呀，下周就能回學(xué)校啦~ 論文地址：Open-Set Domain Adaptation with Visual-Language Foundation Models 代碼地址：當(dāng)前版本暫未提供代碼地址預(yù)計(jì)提交于：CVPR 2024 Ps：2023 年每周一篇博文閱讀筆記，主頁(yè) 更多干貨，歡迎關(guān)注呀，期待 5
2024年02月14日
瀏覽(26)
【論文閱讀筆記】4篇Disentangled representation learning用于圖像分割的論文
4篇應(yīng)用解耦表示學(xué)習(xí)的文章，這里只關(guān)注如何解耦，更多細(xì)節(jié)不關(guān)注，簡(jiǎn)單記錄一下。 Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, O
2024年01月17日
瀏覽(37)
論文筆記--GloVe: Global Vectors for Word Representation
標(biāo)題：GloVe: Global Vectors for Word Representation 作者：Jeffrey Pennington, Richard Socher, Christopher D. Manning 日期：2014 期刊：EMNLP ??文章提出了一種新的單詞表示的訓(xùn)練方法：Glove。該方法結(jié)合了基于統(tǒng)計(jì)方法和基于上下文窗口方法的優(yōu)勢(shì)，在多個(gè)下游任務(wù)上超越了當(dāng)下SOTA方法的表現(xiàn)。
2024年02月15日
瀏覽(24)
論文筆記 - ：DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION
Title: 深入研究單目 3D 物體檢測(cè)的輸出表示單目 3D 對(duì)象檢測(cè)旨在從單個(gè)圖像中識(shí)別和定位 3D 空間中的對(duì)象。最近的研究取得了顯著的進(jìn)展，而所有這些研究都遵循基于 LiDAR 的 3D 檢測(cè)中的典型輸出表示。然而，在本文中，我們認(rèn)為現(xiàn)有的離散輸出表示不適合單目 3D 檢測(cè)。具
2024年04月09日
瀏覽(15)
論文筆記：FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting
2022 ICML 長(zhǎng)時(shí)間序列問題是一個(gè)研究很廣泛的問題 RNN以及變體會(huì)遇到梯度消失/梯度爆炸，這會(huì)在很大程度上限制他們的表現(xiàn) Transformer的方法會(huì)導(dǎo)致很高的計(jì)算復(fù)雜度，以及很大的內(nèi)存消耗，這也會(huì)使得在長(zhǎng)時(shí)間序列上使用Transformer很吃力近來有方法優(yōu)化Transformer，使其計(jì)算復(fù)
2024年02月11日
瀏覽(30)
論文閱讀---Albert :Few-shot Learning with Retrieval Augmented Language Models
增強(qiáng)語言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知識(shí)： BERT （Bidirectional Encoder Representations from Transformers）是一種預(yù)訓(xùn)練語言模型，它通過在大規(guī)模文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)文本的雙向表示，并在多種NLP任務(wù)中展現(xiàn)出卓越的性能。BERT的雙向性意味著它能夠
2024年04月23日
瀏覽(34)
【論文閱讀】InstructGPT: Training language models to follow instructions with human feedback
論文鏈接：InstructGPT ??關(guān)注公眾號(hào) funNLPer 了解更多AI算法?? 把語言模型變大并不意味著會(huì)讓模型更好的理解用戶意圖，例如大的語言模型會(huì)生成一些不真實(shí)、有害的、沒有幫助的輸出給用戶，換句話說，這些模型并沒有和用戶的意圖對(duì)齊（aligned）。在這篇論文中我們展示了
2023年04月19日
瀏覽(17)
論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》
本文是2022年CVPR上的一篇多模態(tài) 論文，利用對(duì)比學(xué)習(xí)和動(dòng)量來進(jìn)行圖片與文本信息的上游預(yù)訓(xùn)練。作者提出問題簡(jiǎn)單的跨模態(tài)比對(duì)模型無法確保來自同一模態(tài)的相似輸入保持相似。（模態(tài)內(nèi)部語義信息損失）全局互信息最大化的操作沒有考慮局部信息和結(jié)構(gòu)信息。對(duì)于上
2024年04月13日
瀏覽(28)