国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

基于BERT-PGN模型的中文新聞文本自動摘要生成——文本摘要生成(論文研讀)

這篇具有很好參考價值的文章主要介紹了基于BERT-PGN模型的中文新聞文本自動摘要生成——文本摘要生成(論文研讀)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

基于BERT-PGN模型的中文新聞文本自動摘要生成(2020.07.08)

摘要:

  • 針對文本自動摘要任務(wù)中生成式摘要模型對句子的上下文理解不夠充分、生成內(nèi)容重復(fù)的問題,基于BERT 和指針生成網(wǎng)絡(luò)(PGN),提出了一種面向中文新聞文本的生成式摘要模型——BERT-指針生成網(wǎng)絡(luò)(BERTPGN)。首先,利用 BERT 預(yù)訓(xùn)練語言模型結(jié)合多維語義特征獲取詞向量,從而得到更細粒度的文本上下文表示;然后,通過 PGN模型,從詞表或原文中抽取單詞組成摘要;最后,結(jié)coverage機制來減少重復(fù)內(nèi)容的生成并獲取最終的摘要結(jié)果。在2017年CCF國際自然語言處理與中文計算會議(NLPCC2017)單文檔中文新聞?wù)u測數(shù)據(jù)集上的實驗結(jié)果表明,與PGN、伴隨注意力機制的長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM-attention)等模型相比,結(jié)合多維語義特征的BERT-PGN模型對摘要原文的理解更加充分,生成的摘要內(nèi)容更加豐富,全面且有效地減少重復(fù)、冗余內(nèi)容的生成,Rouge-2和Rouge-4指標分別提升了1. 5%和1. 2%。

0 引言

  • 隨著近些年互聯(lián)網(wǎng)產(chǎn)業(yè)的飛速發(fā)展,大量的新聞網(wǎng)站、新聞手機軟件出現(xiàn)在日常生活中,越來越多的用戶通過新聞網(wǎng)站、手機軟件快速獲取最新資訊。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)第 42 次發(fā)展統(tǒng)計報告,到2018年6月,中國的移動電話用戶規(guī)模達到7. 88 億,網(wǎng)民接入互聯(lián)網(wǎng)的比例也在增加,通過手機達到98. 3%。網(wǎng)友人數(shù)增多、新聞媒體網(wǎng)絡(luò)平臺使用率不斷提升,網(wǎng)友們使用今日頭條等新聞媒體的頻率也不斷提升。為了適應(yīng)當(dāng)下快節(jié)奏的生活,網(wǎng)友需要閱讀最少的新聞字數(shù),獲取新聞文章的關(guān)鍵內(nèi)容。網(wǎng)友們可以通過文本自動摘要技術(shù),概括出新聞的主要內(nèi)容,節(jié)省閱讀時間,提升信息使用效率。因此,本文提出的面向新聞的文本自動摘要模型具有重要意義。
  • 國內(nèi)外學(xué)者針對文本自動摘要已經(jīng)做了大量的研究。文本自動摘要是 20世紀 50年代出現(xiàn)的一種用計算機完成的文本摘要技術(shù),幫助人們從信息海洋中解放,提高信息的使用效率[2]。自2001年美國國家標準技術(shù)研究所舉辦文檔理解會議以來,文本自動摘要研究得到了越來越多的關(guān)注[3]。
  • 本文受文獻[4]啟發(fā),針對網(wǎng)友閱讀理解新聞時需要花費大 量 時 間 的 問 題 ,基 于BERT(Bidirectional Encoder Representations from Transformers)和 指 針 生 成 網(wǎng) 絡(luò)(Pointer Generator Network,PGN),提出了一種面向中文新聞文本的自動摘要模型——BERT-指針生成網(wǎng)絡(luò)(Bidirectional Encoder Representations from Transformers-Pointer Generator Network,BERT-PGN),能夠有效節(jié)省時間,提高信息使用效率。該模型首先利用 BERT 預(yù)訓(xùn)練語言模型獲取新聞文本的詞向量,結(jié)合多維語義特征對新聞中的詞所在的句子進行打分,其結(jié)果作為輸入序列輸入到指針生成網(wǎng)絡(luò)中進行訓(xùn)練,得到新聞?wù)慕Y(jié)果。本文主要貢獻如下。
  • 1)本文提出了一種面向新聞文本進行自動摘要的模型——BERT-PGN,分為兩個階段實現(xiàn):基于預(yù)訓(xùn)練模型及多維語義特征的詞向量獲取階段以及基于指針生成網(wǎng)絡(luò)模型的句子生成階段。
  • 2)實驗結(jié)果表明,該模型在2017年CCF國際自然語言處理與中文計算會議(the 2017 CCF International Conference on Natural Language Processing and Chinese Computing,NLPCC2017)單文檔中文新聞?wù)u測數(shù)據(jù)集上取得了很好的效果,Rouge-2和Rouge-4指標分別提升1. 5%和1. 2%。

相關(guān)研究

-自動文本摘要有兩種主流方式,即抽取式摘要和生成式摘要[5]。在對文本進行語義挖掘的研究中,許多經(jīng)典的分類、聚類算法被先后提出[6]。最早的摘要工作主要是利用基于詞頻和句子位置的基于統(tǒng)計的技術(shù)[7]。1958 年,Luhn[8]提出了第一個自動文本摘要系統(tǒng)。近十幾年來,隨著機器學(xué)習(xí)(Machine Learning,ML)以及自然語言處理(Natural Language Processing,NLP)的快速發(fā)展,許多準確高效的文本摘要算法被提出[9]?;ヂ?lián)網(wǎng)作為商業(yè)媒介快速發(fā)展,導(dǎo)致用戶吸收了太多信息。為了解決這種信息過載,文本自動摘要起到了關(guān)鍵作用。文本自動摘要可以在屏蔽大量干擾文本的同時,讓用戶更加快捷地獲取關(guān)鍵信息,適應(yīng)當(dāng)下快節(jié)奏的生活[10]
。

  • 抽取式摘要方法是將一篇文章分成小單元,然后將其中的一些作為這篇文章的摘要進行提取。Liu等[11]提出了一個抽取式文本摘要的對抗過程,使用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)模型獲得了具有競爭力的Rouge分數(shù),該方法可以生成更多抽象、可讀和多樣化的文本摘要;AlSabahi 等[12使用分層結(jié)構(gòu)的自注意力機制模型(Hierarchical Structured Self-Attentive Model,HSSAM),反映文檔的層次結(jié)構(gòu),進而獲得更好的特征表示,解決因占用內(nèi)存過大模型無法充分建模等問題 ;Slamet 等[13]提出了一種向量空間模型(Vector Space Model,VSM),利用VSM進行單詞相似性測試,對文本自動摘要的結(jié)果進行測評,比較文本摘要實現(xiàn)的效果;Alguliyev 等[14]發(fā)現(xiàn),與傳統(tǒng)文本自動摘要方法相比,基于聚類、優(yōu)化和進化算法的文本自動摘要研究最近表現(xiàn)出了良好的效果。但抽取式摘要并未考慮文本的篇章結(jié)構(gòu)信息,缺少對文本中關(guān)鍵字、詞的理解,生成的摘要可讀性、連續(xù)性較差。
  • 生成式摘要方法是一種利用更先進自然語言處理算法的摘要方法,對文章中的句子進行轉(zhuǎn)述、替換等生成文章摘要,而不使用其中任何現(xiàn)有的句子或短語。隨著近些年深度學(xué)習(xí)的快速發(fā)展,越來越多的深度學(xué)習(xí)方法被利用到文本摘要中。
  • Cho等[15]和Sutskever等[16]最早提出了由編碼器和解碼器構(gòu)成的 seq2seq(sequence-to-sequence)模型;Tan 等[17]提出了基于圖的注意力機制神經(jīng)模型,在文本自動摘要的任務(wù)中取得了很好的效果;Siddiqui等[18]在谷歌大腦團隊提出的序列到序列模型的基礎(chǔ)上進行改進,使用局部注意力機制代替全局注意力機制,在解決生成重復(fù)的問題上取得了很好的效果;Celikyilmaz 等[19]針對生成長文檔的摘要,提出了一種基于編碼器-解碼器體系結(jié)構(gòu)的深層通信代理算法;Khan 等[20]提出了一種基于語義角色標記的框架,使用深度學(xué)習(xí)的方法從語義角色理解的角度實現(xiàn)多文檔摘要任務(wù);江躍華等[21]提出了一種基于 seq2seq 結(jié)構(gòu)和注意力機制并融合了詞匯特征的生成式摘要算法,能在摘要生成過程中利用詞匯特征識別更多重點詞匯內(nèi)容,進一步提高摘要生成質(zhì)量。
  • 現(xiàn)階段大多數(shù)的文本自動摘要方法主要是利用機器學(xué)習(xí)或深度學(xué)習(xí)模型自動提取特征,利用模型進行摘要句子的選取及壓縮。但自動提取的特征和摘要文本會存在不充分、不貼近的情況,不能很好地刻畫摘要文本。本文提出的 BERT-PGN 模型基于 BERT 預(yù)訓(xùn)練語言模型及多維語義特征,針對中文新聞文本,從更多維度進行特征抽取,深度刻畫摘要文本,能夠得到更貼近主題的摘要內(nèi)容。

2 BERT-PGN模型

  • 本文提出的 BERT-PGN 模型主要分成兩個階段實現(xiàn),即 基于預(yù)訓(xùn)練模型及多維語義的詞向量獲取階段以及基于指針生成網(wǎng)絡(luò)模型的句子生成階段,如圖 1 所示。該模型第一階 段利用預(yù)訓(xùn)練語言模型 BERT 獲取新聞文章的詞向量,同時 利用多維語義特征對新聞中的句子進行打分,將二者進行簡 單拼接生成輸入序列;第二階段將得到的輸入序列輸入到指針生成網(wǎng)絡(luò)模型中,使用coverage機制減少生成重復(fù)文字,同 時保留生成新文字的能力,得到新聞?wù)?/li>

基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能

2. 1 基于預(yù)訓(xùn)練模型及多維語義特征的詞向量獲取階段

2. 1. 1 BERT預(yù)訓(xùn)練語言模型
  • 語言模型是自然語言處理領(lǐng)域一個比較重要的概念,利 用語言模型對客觀事實進行描述后,能夠得到可以利用計算機處理的語言表示。語言模型用來計算任意語言序列a1,a2, …,an出現(xiàn)的概率p(a1,a2,…,an ),即:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 通過傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語言模型獲取的詞向量是單一固定 的,存在無法表示字的多義性等問題。預(yù)訓(xùn)練語言模型很好地解決了這一問題,能夠結(jié)合字的上下文內(nèi)容來表示字。 BERT 采用雙向 Transformer 作為編碼器進行特征抽取,能夠獲取到更多的上下文信息,極大程度地提升了語言模型抽取 特征的能力。Transformer編碼單元包含自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)兩部分。自注意力機制的輸入部分是由來自同一個 字的三個不同向量構(gòu)成的,分別Query向量(Q),Key向量(K)和Value向量(V)。通過Query向量和Key向量相乘來表示輸 入部分字向量之間的相似度,記做[QK]T ,并通過dk進行縮放, 保證得到的結(jié)果大小適中。最后經(jīng)過 softmax 進行歸一化操 作,得到概率分布,進而得到句子中所有詞向量的權(quán)重求和表示。這樣得到的詞向量結(jié)合了上下文信息,表示更準確,計算 方法如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • BERT 預(yù)訓(xùn)練模型使用了“MultiHead”模式,即使用了多 個注意力機制獲取句子的上下文語義信息,稱為多頭注意力機制。BERT預(yù)訓(xùn)練語言模型能夠使詞向量獲取更多的上下 文信息,更好地表示原文內(nèi)容。
2. 1. 2 多維語義特征
  • 針對中文新聞重點內(nèi)容集中在新聞開頭、關(guān)鍵詞出現(xiàn)頻率高等特點,本文引入了傳統(tǒng)特征以及主題特征對中文新聞文本中的句子進行細粒度的描述,提升對文本中句子的上下 文語義表述性能。
  • 1)傳統(tǒng)特征。
  • 本文所選擇的傳統(tǒng)特征主要為句子層次的兩種特征:句子中的詞頻以及在文章中的位置。詞頻特征是反映新聞文章中最重要信息的一種統(tǒng)計特征,也是最簡單、最直接的一種統(tǒng)計特征。新聞文章中出現(xiàn)詞的詞頻可以利用式(3)進行計算:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中,wordj 代表文章中第j個詞出現(xiàn)的次數(shù)。 在本文中,選擇文章中的句子作為最終的打分基本單位。 句子是詞的集合,如果句子包含的詞語中,有在新聞文章中頻 繁出現(xiàn)的高頻詞,則認為這個句子在文章中更加重要。新聞文章中第i個句子的詞頻特征打分公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中:TFi表示第i個句子中包含的詞的詞頻之和,seni代表第i 個句子中包含的所有詞。 位置特征同樣是反映新聞文章中重要信息的一種統(tǒng)計特征。一篇新聞文章是由多個句子組成的,句子所在的位置不 同,其代表的重要性也不同,例如文章中的第一個句子大多是新聞文章中最重要的一句話。新聞文章中第 i個句子的位置 特征打分公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中:Posi代表第 i個句子的位置得分,pi代表第 i個句子在新 聞文章中的位置,n代表文章中的句子總個數(shù)。
  • 2)主題特征。
  • 本文選取的主題特征也可表述為標題特征。新聞文章中 的標題具有很高的參考價值,很大程度上可以代表文章中的主題。因此,如果文章中的句子與新聞文章的標題有較高的 相似度,那么這個句子更容易被選擇為文章摘要中的句子。本文使用余弦相似度計算新聞文章中第 i個句子的主題特征 得分,打分公式如下:

基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能

  • 其中:Simi表示第 i個句子與新聞文章標題的相似度,s和 t分 別代表標題和新聞文章中句子的向量化表示。

2. 2 基于指針生成網(wǎng)絡(luò)模型的句子生成階段

  • 指針生成網(wǎng)絡(luò)模型結(jié)合了指針網(wǎng)絡(luò)(Pointer Network, PN)和基于注意力機制的序列到序列模型,允許通過指針直接指向生成的單詞,也可以從固定的詞匯表中生成單詞。文 本中的文字 wi依次傳入 BERT-多維語義特征編碼器、雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)編碼器,生成隱層狀態(tài)序列 hi 。在 t 時刻,長短時記憶 (Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)解碼器接收上一 時刻生成的詞向量,得到解碼狀態(tài)序列st 。
  • 注意力分布at 用來確定t時刻輸出序列字符時,輸入序列 中需要關(guān)注的字符。計算公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中,v、Wh、Ws 、battn是通過訓(xùn)練得到的參數(shù)。利用注意力分布 對編碼器隱層狀態(tài)加權(quán)平均,生成上下文向量ht* 。

基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能

  • 將上下文向量 ht * 與解碼狀態(tài)序列 st串聯(lián),通過兩個線性 映射,生成當(dāng)前預(yù)測在詞典上的分布Pvocab,計算公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中,V’、V、b、b’是通過訓(xùn)練得到的參數(shù)。
  • 模型利用生成概率Pgen來確定復(fù)制單詞還是生成單詞,計 算公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中,wh、ws 、wx、bptr是通過訓(xùn)練得到的參數(shù),σ是sigmoid函數(shù), xt是解碼輸入序列。將at
    作為模型輸出,得到生成單詞w的概率分布:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 為了解決生成詞語重復(fù)的問題,本文引入了 coverage 機 制。通過 coverage 機制對指針生成網(wǎng)絡(luò)模型進行改進,能夠有效減少生成摘要中的重復(fù)。引入 coverage 向量 ct 跟蹤已經(jīng) 生成的單詞,并對已經(jīng)生成的單詞施加一定的懲罰,盡量減少生成重復(fù)。coverage向量ct 計算方式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 通俗來說,ct 表示目前為止單詞從注意力機制中獲得的 覆蓋程度。使用coverage向量ct 影響注意力分布,重新得到注 意力分布at,計算公式如下:
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 其中Wc是通過訓(xùn)練得到的參數(shù)。

3 實驗與分析

3. 1 實驗數(shù)據(jù)

  • 本文的實驗部分使用的數(shù)據(jù)是由 2017 年 CCF 國際自然 語 言 處 理 與 中 文 計 算 會 議(NLPCC2017)提 供 ,來自 于 NLPCC2017中文單文檔新聞?wù)u測數(shù)據(jù)集,包含訓(xùn)練集新 聞文本 49 500 篇,測試集新聞文本 500 篇。該任務(wù)中要求生成的摘要長度不超過60個字符。

3. 2 評價指標

  • Rouge是文本自動摘要領(lǐng)域摘要評價技術(shù)的通用指標之 一,通過統(tǒng)計模型生成的摘要與人工摘要之間重疊的基本單元,評判模型生成摘要的質(zhì)量。本文參考NLPCC2017中文單文檔新聞?wù)u測任務(wù),使用 Rouge-2、Rouge-4 和 Rouge-SU4作為評價指標,對摘要結(jié)果進行評價。

3.3 對比實驗

  • 本文實驗部分選取 8 種基本模型:NLPCC2017 單文檔新 聞 摘 要 評 測 任 務(wù) 結(jié) 果 較 好 團
    隊(ccnuSYS、LEAD、 NLP@WUST、NLP_ONE)提 出 的 模 型[22] 、PGN(without coverage mechanism)[23] 、PGN[23] 、主題關(guān)鍵詞信息融合模型[24] 以及 BERT-PGN(without semantic features)。對人工提取的主 題特征、傳統(tǒng)特征進行特征的有效性驗證,驗證本文提出方法 的有效性。

  • 1)ccnuSYS[22] :使用基于注意力機制的 LSTM 編碼器-解 碼器結(jié)構(gòu)模型生成摘要。

  • 2)LEAD[22] :從原文選取前60個字作為文本摘要。

  • 3)NLP@WUST[22] :使用特征工程的方法進行句子抽取, 并利用句子壓縮算法對抽取的句子進行壓縮。

  • 4)NLP_ONE[22]:NLPCC2017單文檔新聞?wù)u測任務(wù)第 一名的算法,包含輸入、輸出序列的注意力機制。

  • 5)PGN(without coverage mechanism)[23] :ACL2017 中提出 的一種生成模型,使用指針網(wǎng)絡(luò)和基于注意力機制的序列到序列模型生成摘要,不使用coverage機制。

  • 6)PGN(coverage mechanism)[23] :改進的指針生成網(wǎng)絡(luò)模型,利用coverage機制解決生成重復(fù)詞和未登錄詞的問題。

  • 7)主題關(guān)鍵詞融合模型[24] :一種結(jié)合主題關(guān)鍵詞信息的多注意力機制模型。

  • 8)BERT-PGN(without semantic features):本文提出的一種基于BERT和指針生成網(wǎng)絡(luò)的模型,利用coverage機制減少 生成重復(fù)內(nèi)容。

  • 9)BERT-PGN(semantic features):在 BERT-PGN(without semantic features)模型上進行優(yōu)化得到的模型,結(jié)合多維語義特征獲取細粒度的文本上下文表示。

3. 4 實驗環(huán)境及參數(shù)設(shè)置

  • 本文實驗使用單個GTX-1080Ti(GPU)進行訓(xùn)練。本實驗 獲取文本詞向量使用 BERT-base 預(yù)訓(xùn)練模型。BERT-base 模型 共 12 層 ,隱 層 768 維 。 設(shè) 置 最 大 序 列 長 度 為 128,
    train_batch_size為16,learning_rate為 5E-5。 指針生成網(wǎng)絡(luò)模型設(shè)置 batch_size 為 8,隱層
    256維,設(shè)置 字典大小為 50k。訓(xùn)練過程共進行 700k 次迭代,訓(xùn)練總時長 約為7 d5 h(合計173 h)。

3. 5 實驗結(jié)果與分析

3. 5. 1 總體摘要結(jié)果對比實驗
  • 本文重新運行了部分baseline模型,將獲取的結(jié)果與本文 提出的模型結(jié)果做對比,實驗結(jié)果如表1。
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
  • 從表 1 可以看出,本文提出的模型性能相較于 PGN、 NLP_ONE 等模型有了顯著的提升,在 Rouge-2、Rouge-4 以及Rouge-SU4的評價指標中有著明顯的優(yōu)勢,Rouge指標提升了 1. 2~1. 5個百分點。 由 BERT-PGN(semantic features)模型與 PGN、BERT-PGN (without semantic features)模型進行對比,可以看出使用BERT 預(yù)訓(xùn)練模型并結(jié)合有效的多維人工特征,能夠顯著提升模型效果。使用BERT預(yù)訓(xùn)練模型并結(jié)合人工抽取的特征得到的句子上下文表示,對文本中句子的語義理解更加深刻、準確,在文本自動摘要任務(wù)中能夠有效提升性能。
  • 根據(jù)表 2 不同模型生成摘要的內(nèi)容可以發(fā)現(xiàn),本文提出的 BERT-PGN 模型相較于其他模型,在中文新聞文本的自動摘要任務(wù)中生成的摘要內(nèi)容更豐富、更全面、更貼近標準摘要,說明該模型對全文的理解更加充分,能夠結(jié)合文中句子的上下文充分理解句子、詞語的含義,對文中的句子、詞語進行更細致的刻畫。
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能
3. 5. 2 多維語義特征對比實驗
  • 多維特征選取的部分,本文針對新聞文本“主要內(nèi)容集中 在開頭部分”的特點,選取傳統(tǒng)特征、主題特征中的詞頻特征、位置特征以及標題特征,分別表示為TF、Pos以及Main。 由表 3 可以看出,同一模型結(jié)合人工提取的詞頻特征和位置特征效果最好,Rouge-2 指標最多提升了 1. 2 個百分點, Rouge-4指標最多提升了1. 0個百分點。

基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能

  • 本文選取的主題特征 Main 能夠在一定程度上提升模型 的 Rouge 指標。從 Pos 和 Pos+Main、TF 和 TF+Main的特征組 合結(jié)果對比可以得知,主題特征結(jié)合詞頻特征時提升明顯,結(jié) 合位置特征時基本沒有提升。句子在新聞中的位置靠前時,與標題的相似度也更高,說明兩種人工特征在衡量句子在新 聞中的重要性時起到了相似的作用。
  • 通過對比 TF+Main 和TF+Pos兩種特征組合的結(jié)果可以得知,詞頻信息結(jié)合位置信 息相較于結(jié)合主題信息效果更好,能夠充分表達句子在新聞文章中的重要性。因此,本文選擇使用詞頻特征以及位置特 征的特征組合作為多維特征。 新聞文章中多次出現(xiàn)的關(guān)鍵詞,是反映新聞文章中最重要信息的一種統(tǒng)計特征,進行詞頻統(tǒng)計的意義在于找出文章 表達的重點;此外,句子出現(xiàn)的位置也是反映句子重要程度的關(guān)鍵,出現(xiàn)的位置越靠前,說明該句子在文章中起到的作用越 大。因此,詞頻、位置特征是自動摘要模型提升的關(guān)鍵。
3. 5. 3 coverage機制實驗分析
  • 本文使用的模型使用了 coverage 機制,試圖解決生成重 復(fù)內(nèi)容的問題。通過計算生成摘要中 1-gram、2-gram、3-gram以及 4-gram 所占比例,定量分析引入 coverage 機制解決生成 內(nèi)容重復(fù)問題的效果。 由表 4 可以看出,本文提出的BERT-PGN 模型相較于 NLP_ONE能夠有效減少生成內(nèi)容的重復(fù),在解決重復(fù)的方面 效果明顯,在 3-gram、4-gram的摘要結(jié)果定量分析中,接近標 準摘要的效果。
  • 由表 4 可以看出,本文提出的 BERT-PGN 模型相較于 NLP_ONE能夠有效減少生成內(nèi)容的重復(fù),在解決重復(fù)的方面 效果明顯,在3-gram、4-gram 的摘要結(jié)果定量分析中,接近標 準摘要的效果。
    基于bert的文本摘要模型,自然語言處理,bert,深度學(xué)習(xí),人工智能

4 結(jié)語

  • 本文提出了一種面向中文新聞文本的 BERT-PGN 模型, 結(jié)合 BERT 預(yù)處理模型及多維語義特征獲取詞向量,利用指 針生成網(wǎng)絡(luò)模型結(jié)合coverage機制減少生成重復(fù)內(nèi)容。經(jīng)實 驗表明,BERT-PGN模型在中文新聞?wù)蝿?wù)中,生成的摘要結(jié)果更接近標準摘要,包含更多原文的關(guān)鍵信息,能有效解決 生成內(nèi)容重復(fù)的問題。 下一步將嘗試挖掘更多要素,例如:面向新聞文本的有效人工特征等,提升摘要結(jié)果;簡化模型,縮短模型訓(xùn)練時間;提 升生成摘要內(nèi)容的完整性、流暢性;構(gòu)建新聞領(lǐng)域的外部數(shù)據(jù),幫助模型結(jié)合句子上下文充分理解句子含義。

只是自己在工作中或者業(yè)務(wù)看到了這篇論文,順便記錄一下自己的學(xué)習(xí)。如果需要原論文可以評論郵箱,直接發(fā)郵箱。文章來源地址http://www.zghlxwxcb.cn/news/detail-789335.html

到了這里,關(guān)于基于BERT-PGN模型的中文新聞文本自動摘要生成——文本摘要生成(論文研讀)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • [oneAPI] 使用Bert進行中文文本分類

    [oneAPI] 使用Bert進行中文文本分類

    比賽:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel? DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolkitSamples/ 在本次實驗中,我們利用PyTorch和Intel? Optimization for PyTorch的強大功能,對PyTorch進行了精心的優(yōu)化和擴展。這些優(yōu)化舉措極大地增強了PyTorch在各

    2024年02月12日
    瀏覽(27)
  • 使用Bert,ERNIE,進行中文文本分類

    使用Bert,ERNIE,進行中文文本分類

    GitHub - 649453932/Bert-Chinese-Text-Classification-Pytorch: 使用Bert,ERNIE,進行中文文本分類 使用Bert,ERNIE,進行中文文本分類. Contribute to 649453932/Bert-Chinese-Text-Classification-Pytorch development by creating an account on GitHub. https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch ? gayhub上有一個項目

    2024年02月12日
    瀏覽(23)
  • 文本情感分類模型之BERT

    文本情感分類模型之BERT

    BERT是google開源的一種自然語言處理領(lǐng)域的經(jīng)典模型,全稱是 B idirectional? E ncoder? R epresentations from? T ransformers 。它使用多頭注意力和位置嵌入,來替換不易并行的循環(huán)神經(jīng)網(wǎng)絡(luò)。它的出現(xiàn)一舉打破自然語言處理領(lǐng)域11個不同問題的記錄,直接將自然語言處理推動到了一個新的

    2024年02月03日
    瀏覽(20)
  • 基于TF-IDF+KMeans聚類算法構(gòu)建中文文本分類模型(附案例實戰(zhàn))

    基于TF-IDF+KMeans聚類算法構(gòu)建中文文本分類模型(附案例實戰(zhàn))

    ? ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關(guān)注+ 目錄 1.TF-IDF算法介紹 2.TF-IDF算法步驟 3.KMeans聚類? 4.項目實戰(zhàn) 4.1加載數(shù)據(jù) 4.2中文分詞 4.

    2024年02月03日
    瀏覽(32)
  • 【畢業(yè)設(shè)計】基于Spark的海量新聞文本聚類(新聞分類)

    【畢業(yè)設(shè)計】基于Spark的海量新聞文本聚類(新聞分類)

    ?? Hi,大家好,這里是丹成學(xué)長的畢設(shè)系列文章! ?? 對畢設(shè)有任何疑問都可以問學(xué)長哦! 這兩年開始,各個學(xué)校對畢設(shè)的要求越來越高,難度也越來越大… 畢業(yè)設(shè)計耗費時間,耗費精力,甚至有些題目即使是專業(yè)的老師或者碩士生也需要很長時間,所以一旦發(fā)現(xiàn)問題,一定

    2024年02月12日
    瀏覽(24)
  • 【相關(guān)問題解答1】bert中文文本摘要代碼:import時無法找到包時,幾個潛在的原因和解決方法

    【相關(guān)問題解答1】bert中文文本摘要代碼:import時無法找到包時,幾個潛在的原因和解決方法

    ??你好呀!我是 是Yu欸 ?? 2024每日百字篆刻時光,感謝你的陪伴與支持 ~ ?? 歡迎一起踏上探險之旅,挖掘無限可能,共同成長! 前些天發(fā)現(xiàn)了一個人工智能學(xué)習(xí)網(wǎng)站,內(nèi)容深入淺出、易于理解。如果對人工智能感興趣,不妨點擊查看。 感謝大家的支持和關(guān)注。 最近好多人

    2024年03月14日
    瀏覽(16)
  • Python數(shù)據(jù)分析案例33——新聞文本主題多分類(Transformer, 組合模型) 模型保存

    Python數(shù)據(jù)分析案例33——新聞文本主題多分類(Transformer, 組合模型) 模型保存

    對于海量的新聞,我們可能需要進行文本的分類。模型構(gòu)建很重要,現(xiàn)在對于自然語言處理基本都是神經(jīng)網(wǎng)絡(luò)的方法了。 本次這里正好有一組質(zhì)量特別高的新聞數(shù)據(jù),涉及? \\\'教育\\\' \\\'科技\\\' \\\'社會\\\' \\\'時政\\\' \\\'財經(jīng)\\\' \\\'房產(chǎn)\\\' \\\'家居\\\' ?七大主題,基本涵蓋了所有的常見的新聞類型。每個

    2024年01月17日
    瀏覽(21)
  • 基于BERT對中文郵件內(nèi)容分類

    基于BERT對中文郵件內(nèi)容分類

    本文是《用BERT做中文郵件內(nèi)容分類》系列的第二篇,該系列項目持續(xù)更新中。系列的起源是《使用PaddleNLP識別垃圾郵件》項目,旨在解決企業(yè)面臨的垃圾郵件問題,通過深度學(xué)習(xí)方法探索多語言垃圾郵件的內(nèi)容、標題提取與分類識別。 在本篇文章中,我們使用PaddleNLP的BERT預(yù)

    2024年01月22日
    瀏覽(14)
  • 基于PyTorch使用LSTM實現(xiàn)新聞文本分類任務(wù)

    基于PyTorch使用LSTM實現(xiàn)新聞文本分類任務(wù)

    PyTorch深度學(xué)習(xí)項目實戰(zhàn)100例 https://weibaohang.blog.csdn.net/article/details/127154284?spm=1001.2014.3001.5501 基于PyTorch使用LSTM實現(xiàn)新聞文本分類任務(wù)的概況如下: 任務(wù)描述:新聞文本分類是一種常見的自然語言處理任務(wù),旨在將新聞文章分為不同的類別,如政治、體育、科技等。 方法:使

    2024年02月09日
    瀏覽(23)
  • NLP-基于bertopic工具的新聞文本分析與挖掘

    NLP-基于bertopic工具的新聞文本分析與挖掘

    最近簡單接觸了一些NLP的內(nèi)容,練一下如何結(jié)合ChatGPT進行學(xué)習(xí)。 (1)預(yù)處理文本,記錄處理過程。 在使用Bertopic進行主題建模之前,需要對文本進行預(yù)處理。下面是如何使用Bertopic預(yù)處理文本的具體處理過程 1.安裝Bertopic庫: 在Python環(huán)境中安裝Bertopic庫。你可以使用pip命令來

    2024年02月09日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包