国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

BERT for Coreference Resolution Baselines and Analysis論文閱讀

2年前作者：一只菜雞...):分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了BERT for Coreference Resolution Baselines and Analysis論文閱讀。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

EMNLP| 2019 BERT for Coreference Resolution: Baselines and Analysis

1.問題

基于前面提出的端到端的共指消解模型，如何在基準數(shù)據(jù)集上表現(xiàn)更好的效能

2.解決方法

使用Bert來進行改進，在OntoNotes ( + 3.9 F1 )和GAP ( + 11.5 F1 )基準上取得了顯著提升

3.摘要

優(yōu)點：論文采用的Bert-large模型與ELMo和Bert-base相比，在區(qū)分相關但不同的實體方面特別好

缺點：在文檔級上下文、會話和提及釋義的建模方面仍有進步的空間

4.前言

Bert的優(yōu)勢：
- Bert在多個nlp任務[QA\NLI\NER(命名實體識別)] 上取得了顯著提升
- Bert具有更好的雙向推理能力
- Bert可以進行段落級別的訓練，可以更好的建模較長的序列
有兩種改進c2f-coref模型[基于ELMo]的方法：獨立變量和重疊變量
- 獨立變量：使用互不重疊的片段，每個片段作為Bert的獨立實例
- 重疊變量：將文檔分割成重疊的片段，為模型提供超過512個token的上下文
Bert-large在使用更長的上下文窗口(384)時更有優(yōu)勢，但在更長的上下文窗口(512)表現(xiàn)更差
Bert-large比ELMo在區(qū)分相關但截然不同的實體或概念方面具有顯著的優(yōu)勢，但兩者都面對共同的問題：
- 區(qū)分相關但不同的實體，困難在于區(qū)分它們需要世界知識的案例
- 代詞的建模仍然困難，尤其是在會話中
重疊變量企圖將上下文窗口擴展到512個token之外的失敗說明使用更大的上下文窗口進行預訓練可能無法轉化為有效的遠程特征用于下游任務。同時較大的模型也加劇了跨度表示的記憶密集性

5.解決方法

采用高階共指模型（c2f-coref）
在c2f-coref中用Bert transformer 替換整個LSTM-based encoder(以ELMo和GloVe嵌入作為輸入)
數(shù)據(jù)集：GAP和OntoNotes
對兩種變體（變量）進行實驗：
- 獨立變量：使用互不重疊的片段，每個片段作為BERT的獨立實例。這種變體的編碼能力有限，特別是對于位于其片段的開頭或結尾的token
- 重疊變量：將文檔分割的重疊片段分別進行編碼，然后將重疊部分的表示放在一起得到最終的表示

6.實驗

在段落級別的GAP數(shù)據(jù)集和文檔級別的英文OntoNotes 5.0數(shù)據(jù)集上評估基于Bert的模型
擴展c2f-coref和Bert的原始Tensorflow實現(xiàn)
參數(shù)設置：
- epoch：20
- dropout：0.3
- learning rates：1e-5
- Bert參數(shù)和task參數(shù)的linear decay：2e-4
- 在所有參數(shù)使用相同的學習率的情況下，產(chǎn)生了2 - 3 %的影響
- 訓練模型的片段長度：128[bert-base表現(xiàn)最好]、256、384[bert-large表現(xiàn)最好]、512
- 批處理大小：大小為1的文檔
Baselines：將c2f - coref + BERT系統(tǒng)與兩個主要的基線進行了比較
- 原始的基于ELMo的c2f - coref系統(tǒng)( Lee et al . , 2018)
- 2018的前身，e2e-coref (Lee et al., 2017）
  
  【c2f - coref除了比e2e - coref具有更高的計算效率外，還利用注意力對跨度表示進行迭代精化以進行高階推理】
Paragraph Level: GAP
Document Level: OntoNotes

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

雖然基于特征的方法具有更高的記憶效率，但微調(diào)后的模型似乎能產(chǎn)生更好的結果。

7.分析

優(yōu)勢：Bert-base模型和ELMo之間沒有存在顯著的質量差異，Bert-large表現(xiàn)更好
劣勢：
- 模型在較長文檔上表現(xiàn)較差
- 模型都無法有效的表示較大的片段，并且在使用最大片段長度450和512時表現(xiàn)更差
- 使用重疊片段提供額外上下文并沒有改善結果
- large模型可以更好的編碼更長的上下文，但是加劇了廣度表示的記憶密集型
  
  ——》未來預訓練方法的研究應考慮使用稀疏表示來編碼文檔級別的上下文
- 會話上下文中的代詞建模對所有模型來說仍然是困難的
- 模型仍然無法解決需要提及釋義的案例文章來源地址http://www.zghlxwxcb.cn/news/detail-755618.html

8.相關工作

評分跨度或提及對可能是共指消解中最主要的范式之一
上下文
- 會話上下文中的代詞建模對所有模型來說仍然是困難的
- 模型仍然無法解決需要提及釋義的案例

8.相關工作

評分跨度或提及對可能是共指消解中最主要的范式之一
最近（2019），共指消解和其他NLP任務的進展都是由無監(jiān)督的語境化表征推動的。其中，BERT顯著地使用了對段落級序列(結合雙向掩蔽語言的建模目標)的預訓練來更有效地建模長程依賴關系。SpanBERT專注于預訓練跨度表示，以獨立的變體實現(xiàn)OntoNotes上當前最先進的結果

到了這里，關于BERT for Coreference Resolution Baselines and Analysis論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內(nèi)容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

論文閱讀：SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis
論文鏈接代碼鏈接背景：Stable Diffusion在合成高分辨率圖片方面表現(xiàn)出色，但是仍然需要提高本文提出了SD XL，使用了更大的UNet網(wǎng)絡，以及增加了一個Refinement Model，以進一步提高圖片質量。用戶偏好調(diào)查比較可以看到，在不增加Refiner模型的情況下，SD XL的效果已經(jīng)比SD 1.
2024年03月11日
瀏覽(26)
BSRN網(wǎng)絡——《Blueprint Separable Residual Network for Efficient Image Super-Resolution》論文解讀
目錄摘要：網(wǎng)絡架構：具體流程： BSConv： ESDB——Efficient Separable Distillation Block： ?Blueprint Shallow Residual Block (BSRB)： ESA和CCA： ?實驗： BSRN的實現(xiàn)細節(jié)： BSRN-S（比賽）的實現(xiàn)細節(jié)：不同卷積分解的效果： ESA和CCA的有效性: ?不同激活函數(shù)對比： BSRN的有效性： ?和SOTA方法的
2024年02月05日
瀏覽(25)
【深度學習】WaveMix: A Resource-efficient Neural Network for Image Analysis 論文
論文：https://arxiv.org/abs/2205.14375 代碼：https://github.com/pranavphoenix/WaveMix 我們提出了WaveMix——一種新穎的計算機視覺神經(jīng)架構，既資源高效，又具有泛化性和可擴展性。WaveMix網(wǎng)絡在多個任務上實現(xiàn)了與最先進的卷積神經(jīng)網(wǎng)絡、視覺Transformer和token mixer相當或更好的準確性，為C
2024年02月15日
瀏覽(27)
【論文解讀】(如何微調(diào)BERT？) How to Fine-Tune BERT for Text Classification?
論文地址：https://arxiv.org/pdf/1905.05583.pdf 論文年份：2019年05月論文代碼: https://github.com/xuyige/BERT4doc-Classification 論文引用量：1191 （截止2023-04-28）論文閱讀前提：熟悉NLP、深度學習、Transformer、BERT、多任務學習等。現(xiàn)在NLP任務方式大多都是對BERT進行微調(diào)。例如：我們要做一個
2024年02月07日
瀏覽(24)
論文筆記--TinyBERT: Distilling BERT for Natural Language Understanding
標題：TinyBERT: Distilling BERT for Natural Language Understanding 作者：Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu 日期：2019 期刊：arxiv preprint ??文章提出了一種兩階段的BERT蒸餾模型TinyBERT。TinyBERT在GLUE上擊敗了所有當前的SOTA蒸餾BERT模型[1]，且參數(shù)量僅為
2024年02月15日
瀏覽(34)
自監(jiān)督醫(yī)學圖像Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis論文精讀筆記
論文下載地址：Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis 代碼地址：代碼-Github
2023年04月09日
瀏覽(26)
【論文閱讀】N-BEATS Neural basis expansion analysis for interpretable time series forecasting
原始題目：N-BEATS: Neural basis expansion analysis for interpretable time series forecasting 中文翻譯：N-BEATS:可解釋時間序列預測的神經(jīng)基展開分析發(fā)表時間：2020-02-20 平臺：arXiv 文章鏈接：http://arxiv.org/abs/1905.10437 開源代碼：https://github.com/servicenow/n-beats 我們專注于使用深度學習解決單變量
2024年03月11日
瀏覽(20)
Perceptual Loss（感知損失）&Perceptual Losses for Real-Time Style Transferand Super-Resolution論文解讀
由于傳統(tǒng)的L1,L2 loss是針對于像素級的損失計算，且L2 loss與人眼感知的圖像質量并不匹配，單一使用L1或L2 loss對于超分等任務來說恢復出來的圖像往往細節(jié)表現(xiàn)都不好。現(xiàn)在的研究中，L2 loss逐步被人眼感知loss所取代。人眼感知loss也被稱為perceptual loss（感知損失），它與MSE（
2023年04月20日
瀏覽(28)
【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
自然語言處理（Natural Language Processing，NLP）領域內(nèi)的預訓練語言模型，包括基于RNN的ELMo和ULMFiT，基于Transformer的OpenAI GPT及Google BERT等。預訓練語言模型的成功，證明了我們可以從海量的無標注文本中學到潛在的語義信息，而無需為每一項下游NLP任務單獨標注大量訓練數(shù)據(jù)。
2024年02月14日
瀏覽(37)
【論文閱讀】SISR綜述：From Beginner to Master: A Survey for Deep Learning-based Single-Image Super-Resolution
論文地址：https://doi.org/10.48550/arXiv.2109.14335 單幅圖像超分辨率(SISR)是圖像處理中的一項重要任務，旨在提高成像系統(tǒng)的分辨率。近年來，在深度學習(DL)的幫助下，SISR取得了巨大的飛躍，并取得了可喜的成果。在本綜述中，我們對基于dl的SISR方法進行了概述，并根據(jù)重建效率
2024年02月08日
瀏覽(34)