国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀22】Label prompt for multi-label text classification

這篇具有很好參考價值的文章主要介紹了【論文閱讀22】Label prompt for multi-label text classification。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文相關(guān)

論文標題:Label prompt for multi-label text classification(基于提示學習的多標簽文本分類)
發(fā)表時間:2023
領(lǐng)域:多標簽文本分類
發(fā)表期刊:Applied Intelligence(SCI二區(qū))
相關(guān)代碼:無
數(shù)據(jù)集:無

摘要

多標簽文本分類由于其實際應(yīng)用而受到學者的廣泛關(guān)注。多標簽文本分類的關(guān)鍵挑戰(zhàn)之一是如何提取和利用標簽之間的相關(guān)性。然而,在一個復雜和未知的標簽空間中,直接建模標簽之間的相關(guān)性是相當具有挑戰(zhàn)性的。在本文中,我們提出了一種標簽提示多標簽文本分類模型(LP-MTC),該模型受到預(yù)先訓練語言模型的啟發(fā)。具體來說,我們設(shè)計了一套多標簽文本分類的模板,將標簽集成到預(yù)先訓練過的語言模型的輸入中,并通過屏蔽語言模型(MLM)進行聯(lián)合優(yōu)化。這樣,就可以在自我注意的幫助下捕獲標簽之間的相關(guān)性以及標簽與文本之間的語義信息,從而有效地提高了模型的性能。在多個數(shù)據(jù)集上進行的大量經(jīng)驗實驗證明了該方法的有效性。與BERT相比,LP-MTC在4個公共數(shù)據(jù)集上的平均性能比micro-F1提高了3.4%。

1.引言

文本分類是自然語言處理(NLP)中的一項基本和重要的任務(wù),已廣泛應(yīng)用于情感分析、文章檢索等領(lǐng)域。在傳統(tǒng)的文本分類方法中,每個樣本都與一個唯一的標簽相稱。然而,隨著數(shù)據(jù)量的增加,大量的樣本被分配到多個標簽上,這導致了傳統(tǒng)的單標簽文本分類方法的失敗。例如,在一些跨學科的研究中,一些文章可能同時涉及化學和計算機。因此,我們很自然地提出了多標簽文本分類(MTC)方法。
MTC的目標是在整個標簽空間中為某個文檔確定適當?shù)念悇e,并給該文檔一個不確定數(shù)量的標簽。近年來,多標簽文本分類被廣泛應(yīng)用于情緒分析、主題分類、信息檢索、和標簽推薦。在實際應(yīng)用中,由于文檔的冗長和復雜,語義信息可能被隱藏在嘈雜或冗余的內(nèi)容中。此外,標記之間可能存在一些語言相關(guān)性,并且不同的標記可能共享文檔的一個子集。為了解決這些問題,對MTC的研究視角可以分為以下三類:如何從原始文檔中充分捕獲語義模式,如何從每個文檔中提取與相應(yīng)標簽相關(guān)的區(qū)別信息,以及如何準確地挖掘標簽之間的相關(guān)性。
解決MTC最直接的方法之一是將多標簽文本分類任務(wù)轉(zhuǎn)換為幾個二值分類任務(wù),但這往往忽略了多個標簽之間的關(guān)系。同樣,一些深度學習方法,如CNN 和注意機制,可以有效地對文檔進行建模,但仍然忽略了標簽之間的關(guān)系。如圖1所示,在由皮爾遜相關(guān)系數(shù)計算出的Arxiv學術(shù)論文數(shù)據(jù)集(AAPD)中,不同的標簽對之間存在特定的相關(guān)性。對于標簽0和標簽1,相關(guān)性為1,這意味著這兩個標簽在所有實例中都會一起出現(xiàn)。因此,對于一些標簽信息較少或長尾分布嚴重的數(shù)據(jù)集,標簽之間的關(guān)聯(lián)可以提供更重要的信息。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
圖1 AAPD列組中所有標簽對之間的斯皮爾曼相關(guān)系數(shù)。顏色越淺,標簽對就越相關(guān)性
近年來,一些方法利用標簽結(jié)構(gòu)和內(nèi)容來捕獲標簽之間的相關(guān)性。一些研究將MTC轉(zhuǎn)化為標簽生成模型,以檢索多標簽的潛在空間。一些方法通過學習標簽的表示來得到一個更一般化的分類模型。也有一些方法通過顯式地建模列車集中標簽之間的關(guān)聯(lián)來預(yù)測測試集的標簽。然而,當標簽文本之間沒有太大的差異或缺乏標簽文本時,這些模型可能會在分類上失敗。此外,在一個未知和復雜的標簽空間中建模標簽的關(guān)聯(lián)可能是非常具有挑戰(zhàn)性的。
大規(guī)模的預(yù)訓練語言模型的出現(xiàn),如BERT(來自變形金剛的雙向編碼器表示)和GPT-3 ,使得自然語言處理領(lǐng)域的知識轉(zhuǎn)移更加容易。最近的一些研究表明,為預(yù)先訓練過的語言模型編寫提示可以更好地釋放模型的優(yōu)勢,并實現(xiàn)進一步的改進。在提示學習中,任務(wù)被形式化為等效的封閉式任務(wù),語言模型用于處理相應(yīng)的封閉式任務(wù),而不是原始任務(wù)。
受基于大規(guī)模預(yù)訓練語言模型的提示學習方法的啟發(fā),我們提出了一種標簽提示多標簽文本分類模型(LP-MTC),通過使用語言模型學習的提示模板中的語義信息來學習標簽與文本之間的關(guān)系。具體來說,我們將不同的標簽映射到不同的標記上,并構(gòu)建一組標記前綴模板,用于提示學習。在這里,標簽可以是不包含文本信息的特殊標記,如[標簽1]、[標簽2],而不是文本標簽,如體育、科學等。通過將前綴模板與語言模型的輸入相結(jié)合,可以很自然地通過自我注意來捕獲模板中包含的標簽關(guān)聯(lián)。此外,與現(xiàn)有的設(shè)計良好的基于任務(wù)的模板相比,我們的方法更為通用,不需要為不同的數(shù)據(jù)集進行定制。在訓練過程中,我們將標記模板與要分類的句子拼接,并將它們輸入BERT。在預(yù)測時,我們掩蓋了所有的標簽標記并預(yù)測它們。此外,為了更好地利用BERT的預(yù)測能力,我們還構(gòu)建了一個多任務(wù)框架,即原始輸入的隨機掩碼標記,并使用掩碼語言模型(MLM)來預(yù)測掩碼標記,以幫助優(yōu)化多標簽文本分類學習任務(wù)。我們的貢獻如下:

  • 提出了一種標簽提示多標簽文本分類模型(LP-MTC),該模型將多標簽文本分類轉(zhuǎn)換為提示學習任務(wù)。特別是,我們?yōu)椴煌臄?shù)據(jù)集設(shè)計了一個通用的提示模板,并在預(yù)先訓練好的語言模型的幫助下捕獲了標簽和文本之間的潛在語義關(guān)系。
  • 我們使用MLM為聯(lián)合訓練構(gòu)建了額外的語言模型學習任務(wù),進一步提高了LP-MTC的性能。
  • 我們對不同的多標簽文本分類任務(wù)進行了廣泛的實驗,證明了我們的方法在模型性能、標簽相關(guān)性和時間能力方面的優(yōu)越性。

2.相關(guān)工作

在本節(jié)中,我們將介紹一些與我們的研究相關(guān)的工作,包括多標簽文本分類和提示學習。

2.1 多標簽文本分類

多標簽文本分類是自然語言處理中的一項基本任務(wù)。現(xiàn)有的方法傾向于通過將多標簽文本分類任務(wù)轉(zhuǎn)換為多個二元分類任務(wù)來解決它。有些方法利用了標簽之間的配對關(guān)聯(lián)或互作關(guān)聯(lián)。兩兩比較(RPC)利用兩兩分類的自然擴展,產(chǎn)生了一種二元偏好關(guān)系,將多標簽學習任務(wù)轉(zhuǎn)化為標簽排序任務(wù)。
然而,假設(shè)一個標簽可以與多個標簽相關(guān),并利用標簽的高階依賴關(guān)系更有效。分類器鏈(CC)將MTC的任務(wù)轉(zhuǎn)換為一組二元分類任務(wù)鏈。k-標簽集(RAkEL)構(gòu)建小的標簽隨機子集,并將MTC轉(zhuǎn)換為隨機子集的單標簽分類任務(wù)。近年來,隨著深度學習的發(fā)展,一些研究采用序列學習模型來解決MTC,如序列生成模型(SGM),它們通過RNN解碼器生成一個潛在的標簽序列。然而序列模型需要在潛在的空間中尋找最優(yōu)解,當標簽太多時,這就太耗時了。
有些方法對標簽的聯(lián)合概率分布進行建模,而不是對特定標簽的關(guān)聯(lián),如貝葉斯網(wǎng)絡(luò)和無向圖模型。Wang等人,通過不良學習框架,加強了多標簽的聯(lián)合分布與預(yù)測的多標簽之間的相似性。由于圖神經(jīng)網(wǎng)絡(luò)(GNN)在非歐幾里得空間數(shù)據(jù)建模中的有效性,有些方法使用GNN來捕獲標簽之間的相關(guān)性。標簽特定注意網(wǎng)絡(luò)(LSAN)提出了一種同時考慮文檔內(nèi)容和標簽文本的標簽注意網(wǎng)絡(luò)模型,并使用自我注意機制來衡量每個單詞對每個標簽的貢獻。磁鐵使用一個特征矩陣和一個相關(guān)矩陣來捕獲和探索標簽之間的關(guān)鍵依賴關(guān)系。與上述研究不同,我們的方法采用預(yù)先訓練好的語言模型,通過即時學習來捕捉標簽之間的相關(guān)性,從而提高多標簽分類的效果。通過自我注意,我們不是明確地表示標簽之間的關(guān)系,而是直接將帶有標簽?zāi)0宓臉擞涊斎隑ERT,讓模型自動學習相關(guān)性

2.2 提示學習

近年來,提示學習被用來填補預(yù)先訓練好的語言模型與下游任務(wù)之間的客觀差異,并充分利用語言模型的可轉(zhuǎn)移性。通過利用語言提示作為上下文,提示學習將下游任務(wù)轉(zhuǎn)換為阻塞式任務(wù)。
少樣本分類學習分類器只給出每個類的少數(shù)標記的例子。一些最早的研究旨在通過在很少樣本的情況下迅速學習來解放語言模型的能力。基于層次的優(yōu)化相結(jié)合的完草問題,并展示了提示學習與BERT、GPT-3和其他語言模型相結(jié)合的能力。漸漸地,一些手工提示被廣泛探索,例如,在神經(jīng)語言推理和情緒分類。PTE利用完形填空法成功地解決了小樣本中的文本分類和自然語言推理問題。Chen和Zhang 提出了一種基于問題的方法,將與標簽相關(guān)的問題與每個候選句子聯(lián)系起來,以幫助語言模型更好地理解少樣本學習中的文本分類任務(wù)。
為了避免勞動密集型的提示設(shè)計,自動提示搜索已被廣泛探索。自動提示自動創(chuàng)建一組不同任務(wù)的提示,并顯示MLM執(zhí)行情緒分析和自然語言推理的內(nèi)在能力。有些方法還使用了一種自動的方式來將提示符中的單詞映射到適當?shù)念悇e。LM-BFF采用Seq-to-Seq模型來生成提示學習的候選對象。也有研究直接使用一系列可學習的順序嵌入作為提示,而不是離散的語言短語。但是大多數(shù)自動生成的提示的性能不如手動選擇的提示。
與以往的其他研究不同,我們的方法旨在探索提示學習在多標簽文本分類中的應(yīng)用,而不是專注于少樣本學習。此外,我們的方法不需要為每個數(shù)據(jù)集構(gòu)建由自然語言短語或單詞組成的不同模板。相反,我們使用一系列專門定義的token來表示標簽提示符。

3.初步準備工作

首先,我們出發(fā)并描述了MTC任務(wù)和提示學習。對于一個給定的文本x = {w1,w2,…,wm}和它的真實標簽y = {y1,y2,…,yL},L表示標簽的數(shù)量,那么MTC任務(wù)的目標是學習一個映射函數(shù) χ : x → y : { 0 , 1 } L χ: x→y:\lbrace 0,1\rbrace^L χxy{0,1}L
在提示學習中,通常需要以下三個步驟來構(gòu)建一個提示學習的管道:

  • 為不同的任務(wù)構(gòu)建提示式模板。以電影情感二分句為例,“這部電影太感人了!”,提示學習或稱為提示調(diào)優(yōu),通常生成一個新的句子,由前綴/后綴模板τ輸入:“這部電影太感人了!”我[Mask]它!”[Mask]可以是“愛”或“恨”,分別表示積極或消極的情緒。帶有前綴模板的新輸入可以表示為:
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
    其中||表示連接。
  • 通過語言模型搜索模板的最優(yōu)答案。在訓練過程中,提示學習通常與語言模型相結(jié)合來預(yù)測掩碼標記信息。形式上,給定一個帶有詞匯表V的語言模型M和帶有掩碼m的新輸入x,提示學習的目標是預(yù)測掩碼token w的概率 p M m ( w ∣ x ′ ) p^m_M(w|x') pMm?wx,其中w∈V和 p M m ( w ∣ x ′ ) ∈ R ∣ V ∣ p^m_M(w|x')∈R^{|V |} pMm?wxRV表示token的概率分布向量。要預(yù)測的標記通常反映了句子的分類。
  • 將搜索到的答案映射到標簽空間。一般來說,預(yù)測的標記與實際的類別不同,因此需要通過映射或稱為表達器的方法將特定的標記分配給相應(yīng)的類別。例如,在圖2中,被映射為一個積極的類別,被映射為一個消極的類別。通過這種方式,即時學習可以將二元情緒分類任務(wù)轉(zhuǎn)換為封閉式的任務(wù)。
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
    圖2:構(gòu)建輸入的提示示例

4.方法

在本節(jié)中,我們詳細描述了所提出的模型,如圖3所示。首先,我們需要設(shè)計一套提示模板,可以用于多個標簽任務(wù),以便在輸入中顯示標簽信息。在此之后,我們需要使用語言模型在模板中學習[Mask]標記。然后,我們還通過隨機掩蔽原始輸入的標記來構(gòu)建一個多任務(wù)框架,并使用MLM來預(yù)測掩蔽標記。

4.1提示模板

對于提示學習,雖然一些研究已經(jīng)證明了模板方法的優(yōu)勢,但不清楚相同的模板是否適用于每個模型,也不清楚哪樣的模板更適合模型。對于MTC,由于不同的文檔包含不同數(shù)量的真標簽,并且不同數(shù)據(jù)集的標簽空間大小不一致,所以很難為每個標簽構(gòu)建特定的模板。為此,我們?yōu)檎麄€標簽空間構(gòu)建了一個模板系統(tǒng)。首先,每個位置上的不同標簽應(yīng)該有三種不同的狀態(tài):1、0或掩碼。為了方便起見,讓我們把它們寫成Y,N和M。我們強調(diào)不同標簽的順序,這對標簽的預(yù)測非常重要。此外,我們還引入了一個基于位置的提示,允許BERT清楚地識別當前標簽的位置。具體來說,我們對每個標簽token l∈{Y,N,M}采用以下生成方法Γ:
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
其中[.]表示BERT的特殊標記, [ L S ] [L_S] [LS?]表示標簽的開始標記, [ L E ] [L_E] [LE?]表示結(jié)束token,p表示標記在模板中的位置。舉個例子:給定一個帶有掩碼的標簽序列[1,0,mask],我們生成的模板為 [ L S 1 ] [ Y 1 ] [ L E 1 ] [ L S 2 ] [ N 2 ] [ L E 2 ] [ L S 3 ] [ M 3 ] [ L E 3 ] [L^1_S][Y^1][L^1_E][L^2_S][N^2][L^2_E][L^3_S][M^3][L^3_E] [LS1?][Y1][LE1?][LS2?][N2][LE2?][LS3?][M3][LE3?],如圖3所示。通過構(gòu)建多標簽提示模板,我們可以自然地將標簽注入到語言模型的輸入中,并學習自我注意更好的表示。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

圖3 LP-MTC模型結(jié)構(gòu)。以前綴模板為例,綠色的框表示未掩蔽標記,橙色的框表示掩蔽標記,灰色的框表示原始輸入標記

4.2對語言模型的提示學習

接下來,我們將標簽預(yù)測與語言模型的MLM任務(wù)相結(jié)合。MLM是經(jīng)過預(yù)訓練的語言模型中的一項基本任務(wù)。它迫使模型通過隨機屏蔽輸入句子中一定比例的標記來預(yù)測掩蔽詞。這有助于模型理解掩蔽位置的上下文,導致該模型具有更好的性能。具體來說,我們在提示模板中屏蔽中心標記(只有Y或N),以15%的概率表示BERT。此外,為了更好地結(jié)合語言模型的性能,我們還以相同的概率隨機掩碼了原始句子中的標記。在實際應(yīng)用中,LP-MTC可以應(yīng)用于各種語言模型,本文采用了應(yīng)用最廣泛的BERT模型。
在實踐中,為了將標簽?zāi)0逡氲組LM任務(wù)中,我們在語言模型中添加了特殊的標記,如圖3所示的 [ L E 3 ] [L^3_E] [LE3?]。因此,我們應(yīng)該將語言模型V的詞匯表擴展到V’,其中|V’| > |V |和語言模型的目標可以修改為 p M m ( w ′ ∣ x ′ ) p^m_M(w'|x') pMm?(wx),其中w∈|V’|。

4.3訓練與推理

在明確了提示學習的學習目標后,我們對LP-MTC進行了更詳細的訓練和推理過程。
正向傳播在模板生成后,我們將其作為原始句子的前綴,并將x’一起輸入到訓練前的模型中。訓練過程有兩個主要目標:基于提示模板預(yù)測標簽分布,并預(yù)測原始句子和模板的掩碼標記。假設(shè)BERT的輸出為 O ∈ R ∣ x ′ ∣ m a x ? 768 O∈R^{|x'|max?768} ORxmax?768,則通過使用一層具有激活功能的全連接,可以得到標簽的分布預(yù)測和掩蔽token的預(yù)測:
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
其中, ∣ x ′ ∣ m a x |x'|_{max} xmax?表示最大token長度, W l ∈ R 768 ? L W_l∈R^{768?L} Wl?R768?L W m ∈ R 768 ? ∣ V ′ ∣ W_m∈R^{768?|V'|} Wm?R768?V。 O [ i d l ] O[id_l] O[idl?]表示基于標簽標記的索引的張量選擇。
聯(lián)合損失 我們使用二值交叉熵(BCE)作為MTC的損失函數(shù),而交叉熵作為MLM的損失函數(shù)。BCE損失可以寫成如下內(nèi)容:
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

在寫論文的時候,可以把張量計算,損失函數(shù)都寫進去。

其中 Y t Y_t Yt?為實際的真值標簽, P l i P_{li} Pli?表示第i個標簽的概率。最終的聯(lián)合損失函數(shù)為:
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
推理 在推斷時,我們在模板中掩碼所有的標簽token,并計算所有掩碼標簽的概率。與訓練不同,我們此時不需要執(zhí)行MLM任務(wù),因為提示模板中的token可以很容易地預(yù)測標簽分布。我們將標簽的輸出表示為 O l O_l Ol?,并使用邏輯sigmoid型函數(shù)進行概率歸一化:
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
然后,所有大于0.5的概率值都被預(yù)測為正標簽,否則就被預(yù)測為負標簽。模型推理過程如圖4所示。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

5實驗

5.1數(shù)據(jù)集

鑒于多標簽文本分類的廣泛應(yīng)用,我們將我們的方法應(yīng)用于不同類型的數(shù)據(jù)集來驗證LP-MTC的有效性。數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表1所示。

  • AAPD.Arxiv學術(shù)論文數(shù)據(jù)集(AAPD)是一個廣泛應(yīng)用于多學科學術(shù)論文的大規(guī)模分類數(shù)據(jù)集。其目的是通過摘要來預(yù)測一篇學術(shù)論文的主題。一篇學術(shù)論文可以有多門學科,共計54門學科。
  • Reuters 網(wǎng)站的報道。路透社新聞文本數(shù)據(jù)集,創(chuàng)建于1987年,它一直是MTC的標準基準。我們遵循的分類標準,并使用了90個類別。
  • Emotion一個最大的手動注釋數(shù)據(jù)集,58k英語Reddit評論的細粒度情緒分類,標記為27個情緒類別和中性,總共28個類別。83%的數(shù)據(jù)包含單個標簽,15%包含兩個標簽,其余4%包含兩個以上的標簽。
  • Toxic Comments來自Toxic評論分類挑戰(zhàn)競賽的數(shù)據(jù)集包含了可能被認為是褻瀆、粗俗或冒犯性的文本。我們刪除了那些不攜帶任何負面情緒的評論,并只保留了16,225條有標記的記錄作為我們的數(shù)據(jù)集。我們以7:3的比例隨機分割了訓練集/測試集。
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

5.2 評價指標

與相同,漢明損失和macroF1評分被用于主要的評價指標。此外,我們還使用微精度和微召回率來進行進一步的評價。

  • micro-F1。它可以被解釋為精度和查全率的加權(quán)平均值。它通過計算每個數(shù)據(jù)集的總真陽性、假陰性和假陽性來全局計算指標。具體來說,給定第i類的真陽性T Pi、假陽性FPi、假陰性F Ni和真陰性T Ni,微召回可以表示為:
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
  • 漢明損失(HL)。根據(jù)預(yù)測結(jié)果 Y ^ ∈ R N ? L \hat{Y}∈R^{N?L} Y^RN?L和地面真實標簽 Y ∈ R N ? L Y∈R^{N?L} YRN?L,直接計算出誤分類標簽的比例為:
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
    其中, Ξ ( Y n l , Y ^ n l ) Ξ(Y_{nl},\hat{Y}_{nl}) ΞYnl?,Y^nl?是一個指示器函數(shù)。 Ξ ( Y n l , Y ^ n l ) = 1 Ξ(Y_{nl},\hat{Y}_{nl})=1 ΞYnl?Y^nl?=1,如果 Y n l = Y ^ n l Y_{nl} =\hat{Y}_{nl} Ynl?=Y^nl?,else Ξ ( Y n l , Y ^ n l ) = 0 Ξ(Y_{nl},\hat{Y}_{nl})=0 ΞYnl?,Y^nl?=0。因此,HL = 0意味著每個樣本的所有標簽都被分配了正確的值。由于多標簽文本中標簽的稀疏性,漢明標簽的丟失通常是一個很小的十進制(有許多0個標簽)

5.3 基線模型

我們參考相應(yīng)的官方源代碼,并將LP-MTC與廣泛可用的基線進行比較:

  • CNN 。利用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,輸出標簽在標簽空間中的分布。
  • BiLSTM注意。在最后一層采用自注意的2層LSTM神經(jīng)網(wǎng)絡(luò)得到文檔表示,并通過邏輯回歸對每個標簽進行預(yù)測。
  • SGM 將MTC視為一個序列生成問題,并應(yīng)用一個具有新的解碼器結(jié)構(gòu)的序列生成模型來解決它。我們使用官方代碼來實驗原始論文中沒有出現(xiàn)的數(shù)據(jù)集,并使用官方文檔中給出的參數(shù)。
  • BERT基于自我注意的預(yù)訓練語言模型。我們對不同的下游任務(wù)進行了不同的微調(diào)。
  • BERT+MLM在基本的BERT分類上,還添加了額外的MLM任務(wù)。我們想看看MLM對下游任務(wù)是否有效。
  • Label-Wise (LW) LSTM with PT and FT。通過預(yù)訓練模型獲得了具有標簽感知信息的文檔表示,并對不同的下游任務(wù)進行了細化。PT為訓練前的方法。FT表示對下游任務(wù)的微調(diào)方法。我們使用官方代碼4來實現(xiàn)我們的實驗結(jié)果。對于原始文本中未探討的實驗數(shù)據(jù),我們使用源代碼中給出的參數(shù)配置作為我們的實驗參數(shù)。由于所有數(shù)據(jù)集的文本長度都相對較短,所以我們使用LW-LSTM作為原文中所建議的編碼器。
  • LP我們的方法沒有額外的MLM任務(wù)。
  • LP-MLM.我們的方法與額外的MLM任務(wù)。

5.4詳細信息

我們將基于bert的模型的學習率設(shè)置為5e-5,批量大小設(shè)置為16,epoch設(shè)置為40。我們將warm up比率設(shè)置為0.1,將MLM的掩模概率設(shè)置為0.15。對于基線模型CNN和BiLSTM注意,我們將學習率設(shè)置為0.0003,隱藏大小設(shè)置為512。我們使用AdamW作為優(yōu)化器。所有的代碼都由PyTorch實現(xiàn),并運行在一個NVIDIA RTX 3090上。

5.5總體結(jié)果

我們在表2、表3、表4和表5中報告了我們的方法在所有數(shù)據(jù)集上的實驗結(jié)果。我們計算了所有基線的微精度、微召回率、微f1和漢明損失。
在大多數(shù)情況下,我們的方法在所有數(shù)據(jù)集上的micao-f1損失和漢明損失上都獲得了最優(yōu)的結(jié)果,這可以從兩個方面來解釋:

  • 提示模板的構(gòu)建和使用有助于語言模型捕捉標簽與其上下文之間的相關(guān)性;
  • MLM的使用進一步提高了語言模型對下游任務(wù)的調(diào)優(yōu)效果。

我們通過將基于LP的方法(LP和LP-MLM)與不使用提示模板的方法(BERT和BERT-MLM)進行比較,確認了第一點。我們發(fā)現(xiàn),在大多數(shù)情況下,LP有顯著的性能提高,這表明將MTC轉(zhuǎn)化為提示學習任務(wù)可以促進分類效果。提示模板可以被視為語言模型的特殊輸入,因此語言模型可以學習模板中包含的標簽信息。當我們將標簽和原句子一起輸入到BERT中時,這相當于為標簽構(gòu)建相應(yīng)的上下文,而自我注意可以敏感地捕捉到原句子中不存在的上下文關(guān)系。用這種方式,我們引入標簽之間的關(guān)聯(lián),可以提高模型理解標簽上下文的能力。
對于第二點,我們也注意到,添加MLM可以進一步提高LP和BERT的性能,這說明了聯(lián)合訓練的有效性。我們從Bert的本質(zhì)來解釋這一現(xiàn)象。由于BERT本質(zhì)上是一個MLM,允許BERT繼續(xù)學習不同下游任務(wù)的掩碼令牌,可以使模型更適合于下游任務(wù),從而進行更好的分類。
此外,我們還注意到,對于不同的數(shù)據(jù)集,LP-MLM與BERT-MLM相比的改進也不同。對于大標簽空間的AAPD、Reuters和Emotion,LP-MLM分別提高了1.47%、3.64%和2.97%,而對于只有6個標簽的Toxic,提高了1.04%。這表明,通過引入標簽之間的相關(guān)性所帶來的改進可能是與標簽空間的大小有關(guān)。此外,模型的性能也與數(shù)據(jù)集的特殊性有關(guān)。例如,所有模型的micro-F1值通常很低,情感是一個細粒度的情緒數(shù)據(jù)集,很難區(qū)分。

在我寫論文的時候也可以直接說數(shù)據(jù)集本身就是有問題的,很難達到很好的性能。

【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

6.分析

在本節(jié)中,我們將進一步分析我們提出的模型,包括提示模板的設(shè)計和可視化分析。

6.1注意力可視化

BERT的中間層已經(jīng)被證明可以充分地捕捉到單詞之間的語義關(guān)系。在LPMTC中,每個潛在的標簽都可以被視為一個單詞或一個標記,因此我們驗證了LP-MTC如何通過可視化每一層的注意力來捕獲標簽的相關(guān)性。

圖5(a)、6(a)和7(a)顯示了AAPD、 Toxic和Reuters測試集的不同標簽之間的斯皮爾曼相關(guān)性。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
圖5 AAPD測試集的前11個標簽的Spearman相關(guān)系數(shù)與不同BERT層的注意力可視化。顏色越淺,其值越大
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
圖6 Toxic測試集不同BERT層的所有標簽的Spearman相關(guān)系數(shù)和注意可視化
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
圖7路透社測試集前11個標簽的斯皮爾曼相關(guān)系數(shù)與不同BERT層的注意力可視化
為了便于觀察,我們選擇了與AAPD和路透社相關(guān)性較高的前11個標簽。與圖1相似,測試標簽的相關(guān)分布與訓練數(shù)據(jù)集的類似相關(guān)分布相當。
然后,我們以不同BERT層的注意輸出參數(shù)作為可視化的輸入。我們平均所有的注意力頭,并在所有的標簽對之間選擇注意分數(shù)。我們將所有批次相加,得到測試集上的全局得分矩陣,并對其進行歸一化。我們選擇第二層、第六層和最后一層的注意矩陣進行可視化。
從可視化結(jié)果中,我們發(fā)現(xiàn)淺層的BERT學習了一些粗略的信息,比如標簽與自身的相關(guān)性(圖5(b),但是相關(guān)性可能是很弱的,并且經(jīng)常捕獲不相關(guān)的標簽(圖。6(b)和7(b).第6層更注重局部相關(guān)性,閉合標簽0和1之間的相關(guān)性得到了很好的捕獲,如圖5?所示。然而,我們也發(fā)現(xiàn),一些沒有相關(guān)性的局部標簽被錯誤地分配為高相關(guān)性,如圖6?中的標簽2和標簽4。
最后一層的注意力更接近于原始的標簽相關(guān)性分布。與第6層相比,它不僅可以學習AAPD的標簽0和標簽1之間的關(guān)系,還可以學習更遙遠的標簽對之間的相關(guān)性,如標簽2和標簽4圖5(d)對ToxicReuters也進行了類似的觀察。對于如圖所示的毒性。校正了第6層的誤差相關(guān)性,并正確地捕獲了標簽1和標簽2之間的高相關(guān)性。這表明,深度BERT可以捕獲標簽之間的相關(guān)性,這也為LP-MTC的優(yōu)勢提供了一個有效的解釋。

6.2損失可視化

為了進一步探索和比較不同模型的優(yōu)化過程,我們分別在四個數(shù)據(jù)集上可視化了MTC和MLM任務(wù)的損失值。
如圖8所示,當在模型中添加MLM任務(wù)時,BERT和LP的優(yōu)化過程在不同的數(shù)據(jù)集上呈現(xiàn)出相似的趨勢。隨著模型的訓練,MLM和MTC的損失減少和平穩(wěn)。然而,MLM任務(wù)具有更大的標簽空間和更多的預(yù)測值(占所有令牌的15%),因此優(yōu)化速度更慢,損失值比MTC具有更大的數(shù)量級。此外,我們注意到MTC任務(wù)的收斂速度很快,通常在50步之前就變平了,這表明像BERT這樣的語言模型可以很容易地學習文檔標簽。我們還注意到,LPMLM方法可以使MTC任務(wù)在訓練樣本上比在AAPD、Emotion和 Reuters的BERT-MLM更快,說明LP可以幫助模型更好地學習。此外,我們還注意到Toxic數(shù)據(jù)集的特殊性。LP-MLM和Bert-MLM的損耗變化差別不大,收斂速度,如圖8(h)和(g)所示。這是由于與其他三個數(shù)據(jù)集相比, Toxic的標簽空間更小。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習

6.3λ的選擇

根據(jù)MTC和MLM損失的變化,我們也選擇了不同的λ來研究MLM任務(wù)權(quán)重對模型性能的影響。我們設(shè)置了不同的λ∈[1,0.1,0.01,0.001],并觀察了LPMLM在不同λ下的性能。如圖9所示,對于兩個不同的數(shù)據(jù)集,在λ=為0.01時,性能最好。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
圖9不同λ量級下的模型性能。紅線表示沒有MLM任務(wù)的LP結(jié)果。由于λ對模型性能的影響較小,我們重置了縱坐標的起始值以突出差異

雖然較大或模糊的λ對模型也有積極的改進,但推廣的效果略低。一個較大的λ可能會使MLM任務(wù)對主任務(wù)MTC的影響太大,從而影響到模型的學習效率。相比之下,一個小的λ將減少MLM的影響,從而干擾聯(lián)合學習模型。
對于多任務(wù)學習,不同的任務(wù)損失應(yīng)該是相似的程度。然而,在實驗過程中,由于不同數(shù)據(jù)集的特殊性,最優(yōu)λ的值趨于波動,因此我們不探討特定值的影響,而是旨在給出一個粗略的數(shù)量級。在我們的實驗中,我們根據(jù)勘探結(jié)果將所有數(shù)據(jù)的λ統(tǒng)一設(shè)置為0.01。

6.4不同的提示策略

不同的模板可能對同一個任務(wù)有不同的影響。作為比較,我們比較了兩種不同的標簽?zāi)0迳煞椒ā?/p>

  • END 它將模板作為后綴添加到要分類的文檔的結(jié)尾。具體來說,我們將(1)修改為:
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
  • SAME它不區(qū)分不同標簽的位置信息,而是用相同的特殊標記表示。具體來說,我們將(2)修改為:
    【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習對于exmaple,給定一個帶有掩碼[1,0,掩碼]的標簽序列,我們生成模板為 [ L S ] [ Y ] [ L E ] [ L S ] [ N ] [ L E ] [ L S ] [ M ] [ L E ] [L_S][Y][L_E][L_S][N][L_E][L_S][M][L_E] [LS?][Y][LE?][LS?][N][LE?][LS?][M][LE?].
    不同模板生成策略的影響效果見表6。

表6在不同提示溫度條件下的模型性能
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
使用END模板的結(jié)果略低,毒性下降0.0026微f1,情緒下降0.0184微f1。這表明,當使用適當?shù)臉擞洏?gòu)建模板時,模板的位置對模型的性能影響很小。SAME方法比END方法對模型性能的負面影響更大,尤其是對情緒法。因為LP-MLM為不同的標簽生成不同的標記,所以該模型在學習標簽時做出了明確的區(qū)別。然而,當SAME方法被采用,標簽之間沒有顯著差異,導致預(yù)測的混淆和性能下降。.情感比有毒有更大的標簽空間,所以相同的對情感的影響更大。

這個地方很值得借鑒,在構(gòu)建模型的時候可以分為幾種類型
標簽位置:前綴模板、后綴模板
分隔符號:每個標簽一個分隔符、標簽和文本一起一個分隔符、不加分隔符
這時候排列組合就有以下幾種情況
1.在前面+不加分隔符
2.在后面+不加分隔符
3.在前面+每個標簽一個分隔符
4.在后面+每個標簽一個分隔符
5.在前面+標簽和文本分隔符
6.在后面+標簽和文本分隔符
通過這個實驗可以探索,預(yù)測結(jié)果是與位置有關(guān)還是與分隔符有關(guān),還是與二者都有關(guān)

6.5耗時

我們進一步計算了LP-MTC在不同數(shù)據(jù)集上的時間成本,以探索該方法的實際可行性。直觀地說,訓練的經(jīng)過時間取決于序列的輸入長度,這決定了自我注意計算的量。
標簽空間越大,輸入序列就越長。因此,為了便于比較,我們選擇了標記最少的數(shù)據(jù)集,Toxic的和標記最多的數(shù)據(jù)集,即 Reuters進行比較。我們報告了不同模型的每個時期的平均運行時間,如圖10所示。
【論文閱讀22】Label prompt for multi-label text classification,論文閱讀筆記,prompt,人工智能,深度學習
我們發(fā)現(xiàn),與BERT相比,BERT-MLM增加了訓練時間,因為增加了MLM輔助任務(wù)。與Bert-MLM相比,LP-MTC的改進是由于使用了標簽?zāi)0澹@增加了輸入標記的長度。因此,擁有大標簽空間的 Reuters比Toxic需要更多的時間。然而,總的來說,LP-MLM僅略微增加了模型的訓練時間。

7.結(jié)論

在本文中,我們提出了用于多標簽文本分類的LP-MTC模型。我們?yōu)槎鄠€標簽的前綴提示模板,將MTC轉(zhuǎn)換為提示學習任務(wù),并將訓練與MLM相結(jié)合,提高模型在各種評價指標下的性能。我們的方法可以釋放預(yù)先訓練過的語言模型的能力,并使用自我注意來捕獲不同標簽標記之間的相關(guān)性。此外,我們的方法不需要使用額外的標簽文本信息,可以在標簽是匿名的時候應(yīng)用。此外,我們通過可視化分析驗證了LP-MTC捕獲相關(guān)性的能力,并且LP-MTC可以在針對多種類型的數(shù)據(jù)集的測試中表現(xiàn)良好。

我的閱讀總結(jié):這篇論文想要說明的工作真的不是很突出,但是人家的實驗做的很充分,看來有的時候?qū)懻撐囊彩强醋謹?shù)的。文章來源地址http://www.zghlxwxcb.cn/news/detail-608482.html

到了這里,關(guān)于【論文閱讀22】Label prompt for multi-label text classification的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》論文閱讀

    《Hierarchical Sequence Labeling Model for Aspect Sentiment Triplet Extraction》論文閱讀

    文章地址: https://link.springer.com/chapter/10.1007/978-3-030-60450-9_52 ??在這篇文章中作者提出了一個繼承性的序列標注模型( hierarchical sequence labeling model, HSLM)以端到端的方式識別文本語句中所含有的方面級情感三元組(ASTE)。該模型主要有三個部分組成:方面級序列標注模塊、

    2024年01月16日
    瀏覽(25)
  • BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    BMR論文閱讀筆記(Bootstrapping Multi-view Representations for Fake News Detection)

    論文標題:Bootstrapping Multi-view Representations for Fake News Detection 論文作者:Qichao Ying, Xiaoxiao Hu, Yangming Zhou, Zhenxing Qian, Dan Zeng, Shiming Ge 論文來源:AAAI 2023,Paper 代碼來源:Code 基于深度學習的多模態(tài) 虛假新聞檢測 (Fake News Detection, FND)一直飽受關(guān)注,本文發(fā)現(xiàn)以往關(guān)于多模態(tài)FND的研

    2024年02月05日
    瀏覽(26)
  • 論文閱讀:MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

    論文閱讀:MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

    來源:2023 CVPR 題目:自動駕駛的多模態(tài)三維語義分割 原文鏈接:https://arxiv.org/abs/2303.08600v1 代碼鏈接:https://github.com/jialeli1/lidarseg3d 激光雷達和攝像機是自動駕駛?cè)S語義分割的兩種方法。由于缺乏足夠的激光點,目前流行的僅使用lidar的方法在小的和遙遠的物體上嚴重存在

    2024年02月03日
    瀏覽(68)
  • clean-label backdoor attacks 論文筆記

    clean-label backdoor attacks 論文筆記

    #論文筆記# 論文名稱 Clean-Label Backdoor Attacks 作者 Alexander Turner(MIT) 會議/出版社 ICLR 2019 pdf 本地pdf 在線pdf 代碼 trojanzoo-clean-label**** Label-Consistent 其他 這篇文章和 Label-Consistent Backdoor Attacks 基本相同 簡介:這篇文章是最早做干凈標簽下的后門攻擊的文章。作者在 BadNets 上進行了

    2024年02月15日
    瀏覽(33)
  • 【論文閱讀】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    【論文閱讀】Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-S

    paper:Multi-ConDoS: Multimodal Contrastive Domain Sharing Generative Adversarial Networks for Self-Supervised Medical Image Segmentation ????????現(xiàn)有的自監(jiān)督醫(yī)學圖像分割通常會遇到域偏移問題(也就是說,預(yù)訓練的輸入分布不同于微調(diào)的輸入分布)和/或多模態(tài)問題(也就是說,它僅基于單模態(tài)數(shù)據(jù),無法利

    2024年02月03日
    瀏覽(19)
  • 【論文閱讀】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

    【論文閱讀】Automated Runtime-Aware Scheduling for Multi-Tenant DNN Inference on GPU

    該論文發(fā)布在 ICCAD’21 會議。該會議是EDA領(lǐng)域的頂級會議。 Author Hardware Problem Perspective Algorithm/Strategy Improvment/Achievement Fuxun Yu GPU Resource under-utilization Contention SW Scheduling Operator-level scheduling ML-based scheduling auto-search Reduced inference makespan Fuxun Yu 是一名來自微軟的研究員。主要研究

    2024年01月24日
    瀏覽(15)
  • 強化學習論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    強化學習論文閱讀——自動分組Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

    Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning 這是一篇發(fā)表在NeurIPS2022的論文,文章提出了一種分組算法,旨在提高算法零樣本泛化能力 1 論文背景 CTDE :集中訓練分散執(zhí)行,在訓練階段將所有智能體的Q值加到一起去訓練,訓練完了之后在執(zhí)行階段大家各自執(zhí)行自己

    2024年01月25日
    瀏覽(29)
  • RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀

    RSIS 系列 Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 論文閱讀

    寫在前面 ??同樣是一篇比較新的論文掛在 Arxiv 上面,拿來讀一讀。看標題應(yīng)該是提出了新的 RIS 數(shù)據(jù)集與方法,用于遙感目標檢測的。 論文地址:Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation 代碼地址:https://github.com/Lsan2401/RMSIN 預(yù)計提交于:CVPR 202

    2024年02月03日
    瀏覽(23)
  • 《Label-Free Liver Tumor Segmentation》論文筆記

    《Label-Free Liver Tumor Segmentation》論文筆記

    生成人工的腫瘤數(shù)據(jù),減少人工標注的工作量。合成腫瘤圖像:1、形狀和質(zhì)地很真,醫(yī)生也難以分辨;2、訓練網(wǎng)絡(luò)更高效,與在真實腫瘤上訓練相近。 可以生成大量的小腫瘤的圖像,對于腫瘤前期的診斷十分有幫助! 影響合成腫瘤的因素包括:形狀,灰度值,大小,位置和

    2024年02月05日
    瀏覽(19)
  • [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文閱讀] Explicit Visual Prompting for Low-Level Structure Segmentations

    [論文地址] [代碼] [CVPR 23] Abstract 我們考慮了檢測圖像中低層次結(jié)構(gòu)的通用問題,其中包括分割被操縱的部分,識別失焦像素,分離陰影區(qū)域,以及檢測隱藏的物體。每個問題通常都有一個特定領(lǐng)域的解決方案,我們表明,一個統(tǒng)一的方法在所有這些問題上都表現(xiàn)良好。我們從

    2024年02月15日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包