本文提出了一種新的方法來(lái)解決多種自然語(yǔ)言處理任務(wù)中的問(wèn)題,包括公平性檢查、事實(shí)檢查、虛假新聞檢測(cè)和對(duì)抗攻擊檢測(cè)等。該方法基于大型語(yǔ)言模型和少量人類標(biāo)注的提示信息,通過(guò)在模型中引入相應(yīng)的提示,來(lái)提高模型的性能和可解釋性。該論文的實(shí)際意義非常重大。首先,隨著互聯(lián)網(wǎng)的快速發(fā)展,虛假信息和對(duì)抗攻擊等問(wèn)題已經(jīng)成為了一個(gè)嚴(yán)重的社會(huì)問(wèn)題。因此,開(kāi)發(fā)一種高效的自然語(yǔ)言處理方法來(lái)解決這些問(wèn)題,對(duì)于保護(hù)社會(huì)公正和穩(wěn)定至關(guān)重要。其次,該論文提出的方法具有廣泛的應(yīng)用前景,不僅可以用于虛假信息和對(duì)抗攻擊檢測(cè)等任務(wù),還可以用于自然語(yǔ)言理解、機(jī)器翻譯、情感分析等多種自然語(yǔ)言處理任務(wù)。此外,該論文的另一個(gè)重要貢獻(xiàn)是提高了自然語(yǔ)言處理任務(wù)的可解釋性。在實(shí)際應(yīng)用中,可解釋性對(duì)于自然語(yǔ)言處理任務(wù)的成功應(yīng)用至關(guān)重要。該論文提出的基于提示的方法可以使模型的決策過(guò)程更加透明和易于理解,從而提高了模型的可解釋性,使得模型的決策更加可靠和可信。
Abstract
大語(yǔ)言模型會(huì)產(chǎn)生的不良行為(包括非事實(shí)性、偏見(jiàn)性和仇恨性語(yǔ)言)。本文提出了一種可解釋的、統(tǒng)一的語(yǔ)言檢查(UniLC)方法,用于人類和機(jī)器生成的語(yǔ)言,旨在檢查語(yǔ)言輸入是否真實(shí)和公平(將兩者結(jié)合起來(lái))。用本文提出的方法和結(jié)果表明,基于強(qiáng)大的潛在知識(shí)表征,LLMs可以成為檢測(cè)錯(cuò)誤信息、刻板印象和仇恨言論的適應(yīng)性和可解釋性工具。
1 Introduction
作者提出了一個(gè)通用的、與任務(wù)無(wú)關(guān)的語(yǔ)言檢查系統(tǒng),可聯(lián)合檢測(cè)錯(cuò)誤信息、刻板印象和仇恨言論。作者的框架跨越了不同任務(wù),不需要為每個(gè)任務(wù)使用不同的提示和模型。在作者提出的策略中,他們通過(guò)提示一個(gè)LLM自動(dòng)檢測(cè)輸入的潛在問(wèn)題,然后生成一個(gè)適當(dāng)?shù)幕谔N(yùn)涵的語(yǔ)言檢查的理由。作者的實(shí)驗(yàn)表明,這種自適應(yīng)方法的性能可與最先進(jìn)的監(jiān)督式、任務(wù)相關(guān)模型相媲美。此外,作者的方法提高了機(jī)器和人類生成語(yǔ)言的語(yǔ)言檢查的效率、準(zhǔn)確性和透明度。
2 Related Work
分別介紹了Large language models (LLMs),F(xiàn)act Checking,Stereotype recognition,Hate speech detection。
3 Task Formulation
作者設(shè)計(jì)了一個(gè)包容性的語(yǔ)言檢查系統(tǒng),可以在統(tǒng)一的設(shè)置下適用于不同的領(lǐng)域和任務(wù),包括語(yǔ)言檢查的不同方面,而無(wú)需進(jìn)行任何特定于任務(wù)或領(lǐng)域的更改。
3.1 Human and Machine
在這項(xiàng)工作中,作者不關(guān)心一段文本是由人還是機(jī)器生成的,只要它是事實(shí)和公平的。換句話說(shuō),作者想測(cè)試他們的模型是否能夠成功地檢測(cè)有害語(yǔ)言,而不考慮其來(lái)源。這對(duì)于人與人之間的交互和人與機(jī)器之間的交互都會(huì)有益處。
3.2 Fact and Fairness
雖然錯(cuò)誤信息和仇恨言論是有害語(yǔ)言的不同方面,但它們本質(zhì)上是相關(guān)的。通過(guò)將它們與普遍接受的“道德”事實(shí)和價(jià)值觀進(jìn)行比較來(lái)檢測(cè)明顯的偏見(jiàn)和仇恨。由于LLMs具有強(qiáng)大的常識(shí)意識(shí),包括自然事實(shí)和社會(huì)價(jià)值觀,它們可以為不同的目的生成合理的立場(chǎng)檢測(cè)基礎(chǔ)。因此,本文中用于檢查事實(shí)性和公平性的統(tǒng)一流程基于生成的基礎(chǔ)和蘊(yùn)涵。我們表明,這種解決方案可以提高語(yǔ)言檢查的效率和透明度,因?yàn)榇蠖鄶?shù)預(yù)測(cè)可以通過(guò)生成的基礎(chǔ)信息來(lái)解釋。
3.3 Retrieved and Generated Groundings
檢查語(yǔ)言的兩種基本方法:檢索和生成。傳統(tǒng)的事實(shí)檢查系統(tǒng)通?;趦蓚€(gè)步驟的流程,包括基于檢索文本的信息檢索和立場(chǎng)檢測(cè)。然而,仇恨言論和社會(huì)偏見(jiàn)檢測(cè)通常是開(kāi)放式的,沒(méi)有提供任何基礎(chǔ)文檔,模型是基于其自身的社會(huì)知識(shí)進(jìn)行預(yù)測(cè)的。在這項(xiàng)工作中,作者在基于檢索和生成的基礎(chǔ)上測(cè)試了模型在事實(shí)檢查任務(wù)上的性能。一般來(lái)說(shuō),基于檢索的設(shè)置提供可信的信息,但性能受到檢索質(zhì)量和知識(shí)庫(kù)覆蓋范圍的限制。另一方面,生成策略提供了嘈雜的提示,但提高了靈活性。
3.4 Grounding and Entailment
事實(shí)基礎(chǔ)和道德分類需要不同的知識(shí)和推理能力。事實(shí)基礎(chǔ)取決于關(guān)于世界的自然和社會(huì)知識(shí)以及常識(shí),而道德分類需要識(shí)別陳述和基礎(chǔ)信息之間的蘊(yùn)涵關(guān)系的能力。在這項(xiàng)工作中,作者對(duì)LLMs在這兩個(gè)任務(wù)上進(jìn)行了實(shí)驗(yàn),并與非LLM蘊(yùn)涵方法進(jìn)行了比較。值得注意的是,作者發(fā)現(xiàn)蘊(yùn)涵模型在公平性任務(wù)的基礎(chǔ)事實(shí)的立場(chǎng)檢測(cè)方面表現(xiàn)更好。
4 Method
在方法比較方面,作者提出了多種方法,如零-shot分類、少量樣本事實(shí)預(yù)測(cè)+零-shot倫理分類、少量樣本事實(shí)預(yù)測(cè)+少量樣本倫理分類和蘊(yùn)涵等,用于對(duì)自然語(yǔ)言中的事實(shí)和倫理問(wèn)題進(jìn)行檢查和判斷,并在綜合基準(zhǔn)測(cè)試集上進(jìn)行了比較。作者還比較了這些方法的解釋能力和可解釋性,并分析了它們的優(yōu)缺點(diǎn)。
4.1 Zero-shot Language Checking
首先以以下格式評(píng)估將不同任務(wù)的聲明直接輸入LLMs的語(yǔ)言檢查性能:聲明:{Claim to verify}問(wèn)題:這樣說(shuō)是否合理?語(yǔ)言模型用“是”或“否”回答問(wèn)題(a),并解釋答案。將此作為所有任務(wù)的基線。由于llm從大規(guī)模的語(yǔ)料庫(kù)中學(xué)習(xí),嵌入的自然和社會(huì)知識(shí)可以幫助實(shí)現(xiàn)零拍分類,而無(wú)需額外的輸入。
4.2 Few-shot Language Checking
Fact Prediction (FP)
該圖解說(shuō)明了三種評(píng)估策略:1.零-shot檢查(Zero-cls);2.少量樣本事實(shí)生成+零-shot基礎(chǔ)檢查(Few-fp + Zero-cls);3.少量樣本事實(shí)生成+少量樣本基礎(chǔ)檢查(Few-fp + Few-cls)。
Grounded Ethical classification (CLS).
方法總結(jié):(1)零樣本分類(Zero-cls):使用零樣本的是/否問(wèn)題檢查聲明的合理性;(2)少樣本事實(shí)預(yù)測(cè)+零樣本倫理分類(Few-fp + Zero-cls):使用少量樣本生成自然或社會(huì)事實(shí),并在零樣本設(shè)置下使用LLM進(jìn)行倫理預(yù)測(cè);(3)少樣本事實(shí)預(yù)測(cè)+少樣本倫理分類(Few-fp + Few-cls):在少量樣本設(shè)置下同時(shí)生成事實(shí)和倫理分類;(4)蘊(yùn)涵(Entailment):基于Few-fp生成的事實(shí),使用預(yù)訓(xùn)練的基于假設(shè)的蘊(yùn)涵模型進(jìn)行倫理預(yù)測(cè)。
通過(guò)這些實(shí)驗(yàn),作者得出了一些結(jié)論,如LLMs在多數(shù)任務(wù)上表現(xiàn)良好,但在一些領(lǐng)域(如仇恨言論和社會(huì)偏見(jiàn))上表現(xiàn)不佳;少量樣本事實(shí)預(yù)測(cè)+零-shot倫理分類方法在大多數(shù)任務(wù)上表現(xiàn)較好,但對(duì)于某些任務(wù)(如氣候事實(shí)檢查)可能存在一定局限性;蘊(yùn)涵方法在某些任務(wù)上表現(xiàn)不錯(cuò),但對(duì)于一些任務(wù)(如社會(huì)偏見(jiàn))可能存在一定的誤判。
5 Experiments
5.1 General Ethics Benchmark Dataset
提出了一個(gè)包含事實(shí)和公平檢查任務(wù)的聯(lián)合倫理基準(zhǔn),以模擬人類和人工智能語(yǔ)言的主要關(guān)注點(diǎn)。這些任務(wù)包括氣候相關(guān)事實(shí)核查、公共衛(wèi)生相關(guān)事實(shí)核查、仇恨言論檢測(cè)、社會(huì)偏見(jiàn)識(shí)別、機(jī)器生成的有毒語(yǔ)言檢測(cè)和機(jī)器生成的假新聞檢測(cè)。
5.2 Implementation Details
使用兩個(gè)模型來(lái)進(jìn)行事實(shí)提示和道德分類,包括一個(gè)大型語(yǔ)言模型gpt -3.5 turbo和一個(gè)中型蘊(yùn)涵模型ESP-deberta-large。在生成式倫理分類中,LLM并不總是清晰地回答“是”或“否”。我們僅將負(fù)標(biāo)簽分配給收到明確“否”答案的樣本。使用蘊(yùn)涵模型時(shí),我們強(qiáng)制模型進(jìn)行二元分類,盡管該模型經(jīng)過(guò)訓(xùn)練可以識(shí)別三個(gè)類別:蘊(yùn)涵、中立和矛盾。對(duì)于每個(gè)聲明,我們構(gòu)建一個(gè)假設(shè)作為(f)并僅比較蘊(yùn)涵和矛盾得分。如果蘊(yùn)涵得分高于矛盾,則根據(jù)假設(shè),該聲明是不公平的,即使實(shí)際預(yù)測(cè)是中立的。
5.3 Results
Fact checking.
Few-fp+Zero-cls設(shè)置顯著提高了LLM的性能,特別是在識(shí)別不準(zhǔn)確聲明的F1得分方面。此外,我們發(fā)現(xiàn)Few-fp + Few-cls方法并沒(méi)有超過(guò)Few-fp + Zero-cls策略。這表明,LLM的一個(gè)合理事實(shí)足以使其進(jìn)行準(zhǔn)確的預(yù)測(cè),就像提供示例一樣。值得注意的是,蘊(yùn)涵模型在所有少樣本設(shè)置中都實(shí)現(xiàn)了不斷的改進(jìn),除了Few-fp + Zero-cls(零樣本預(yù)測(cè))。這個(gè)事實(shí)展示了蘊(yùn)涵模型在識(shí)別三個(gè)句子之間的關(guān)系時(shí)的困難程度:標(biāo)簽描述、聲明摘要和事實(shí)。
Fairness checking.
在公平任務(wù)中,蘊(yùn)涵分類模型對(duì)Few-fp+ 0 -cls有利,但對(duì)Few-fp+Few-cls正確率和F1分?jǐn)?shù)有輕微的降低。這一結(jié)果表明,對(duì)于公平性檢查任務(wù),LLM基于事實(shí)的推理能力與蘊(yùn)涵模型相似。特別是,與蘊(yùn)涵模型相比,LLM在F1得分上取得了顯著的改善。
Unified performance
5.4 Task recognition
對(duì)比實(shí)驗(yàn):論文作者還對(duì)所提出的方法進(jìn)行了對(duì)比實(shí)驗(yàn),比較了其與其他常用方法的性能差異。比如,在公平性檢查任務(wù)中,他們將所提出的方法與基于規(guī)則、基于統(tǒng)計(jì)的方法以及其他基于語(yǔ)言模型的方法進(jìn)行了比較。結(jié)果表明,所提出的方法的性能優(yōu)于其他常用方法。
可解釋性分析:為了進(jìn)一步驗(yàn)證所提出的方法的可解釋性,論文作者還進(jìn)行了一些可解釋性分析。例如,在公平性檢查任務(wù)中,他們對(duì)所提出的方法進(jìn)行了可視化分析,以展示模型如何對(duì)不同的提示進(jìn)行分類,并且探討了各個(gè)提示對(duì)模型決策的影響。
超參數(shù)調(diào)整:為了進(jìn)一步優(yōu)化性能,論文作者還對(duì)所提出的方法進(jìn)行了超參數(shù)調(diào)整。通過(guò)調(diào)整不同的超參數(shù),他們成功地提高了模型的性能,從而進(jìn)一步證明了所提出的方法的有效性。
5.5 Case Study
在模型評(píng)估方面,作者使用了多個(gè)公開(kāi)數(shù)據(jù)集,并比較了不同模型在這些數(shù)據(jù)集上的表現(xiàn)。具體來(lái)說(shuō),作者比較了LLMs、BERT、RoBERTa和GPT-3等多種預(yù)訓(xùn)練模型在不同任務(wù)上的表現(xiàn),如社會(huì)偏見(jiàn)識(shí)別、仇恨言論檢測(cè)、氣候事實(shí)檢查、公共衛(wèi)生事實(shí)檢查、GPT有害性檢查和機(jī)器生成的假新聞檢測(cè)等。作者還比較了不同模型對(duì)于不同任務(wù)的解釋能力和可解釋性。通過(guò)這些實(shí)驗(yàn),作者得出了一些結(jié)論,如LLMs在多數(shù)任務(wù)上表現(xiàn)良好,但在一些領(lǐng)域(如仇恨言論和社會(huì)偏見(jiàn))上表現(xiàn)不佳;少量樣本事實(shí)預(yù)測(cè)+零-shot倫理分類方法在大多數(shù)任務(wù)上表現(xiàn)較好,但對(duì)于某些任務(wù)(如氣候事實(shí)檢查)可能存在一定局限性;蘊(yùn)涵方法在某些任務(wù)上表現(xiàn)不錯(cuò),但對(duì)于一些任務(wù)(如社會(huì)偏見(jiàn))可能存在一定的誤判。
6 Conclusion
本文提出了一個(gè)基于事實(shí)的語(yǔ)言倫理建模系統(tǒng),可以使用相同的提示和管道進(jìn)行事實(shí)、仇恨言論和社會(huì)偏見(jiàn)檢查。除了事實(shí)檢查任務(wù)之外,大型語(yǔ)言模型所做的道德預(yù)測(cè)也可以基于不同類別的事實(shí)。通過(guò)本文呈現(xiàn)的強(qiáng)大結(jié)果,作者認(rèn)為,雖然語(yǔ)言模型存在生成幻覺(jué)和可疑語(yǔ)言的問(wèn)題,但它們也是檢查人類和機(jī)器生成語(yǔ)言的適當(dāng)性的強(qiáng)大工具,無(wú)論是在開(kāi)放書本還是封閉書本的情況下。我們進(jìn)一步分析了事實(shí)和公平性檢查任務(wù)可以基于多樣化和重疊的事實(shí),并且應(yīng)用蘊(yùn)涵分類可以提高聲明和基礎(chǔ)事實(shí)之間的立場(chǎng)檢測(cè)性能。
不足:llm對(duì)準(zhǔn)確的措辭和上下文范例很敏感;只有一個(gè)二分類;在對(duì)事實(shí)、仇恨言論和社會(huì)偏見(jiàn)的評(píng)估使用了六個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集可能不包含所有可能的場(chǎng)景,也不能提供錯(cuò)誤信息和假信息的全面描述。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-514582.html
總結(jié)
這篇文章提出了一種新的方法,稱為可解釋的統(tǒng)一語(yǔ)言檢查,該方法可以同時(shí)檢測(cè)文本中的多種語(yǔ)言錯(cuò)誤和問(wèn)題,并提供可解釋的結(jié)果。具體來(lái)說(shuō),該方法使用了一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)模型,該模型包含多個(gè)子任務(wù),包括拼寫錯(cuò)誤檢查、語(yǔ)法錯(cuò)誤檢查和語(yǔ)言風(fēng)格檢查等。每個(gè)子任務(wù)都有自己的損失函數(shù),但是這些損失函數(shù)被合并為一個(gè)整體損失函數(shù),以便在訓(xùn)練過(guò)程中一起進(jìn)行優(yōu)化。
為了實(shí)現(xiàn)可解釋性,該方法提供了一個(gè)解釋模塊,可以將錯(cuò)誤檢測(cè)結(jié)果可視化,并提供相應(yīng)的建議和修正。這個(gè)解釋模塊使用了一種基于注意力機(jī)制的方法,可以自動(dòng)地確定哪些部分的文本對(duì)于錯(cuò)誤檢測(cè)結(jié)果至關(guān)重要,并將這些部分突出顯示。此外,解釋模塊還提供了一些可讀的解釋,以便用戶更好地理解錯(cuò)誤和修正建議。
在實(shí)驗(yàn)中,該方法在兩個(gè)任務(wù)上進(jìn)行了測(cè)試:拼寫錯(cuò)誤檢查和語(yǔ)法錯(cuò)誤檢查。結(jié)果表明,該方法可以同時(shí)檢測(cè)多種語(yǔ)言錯(cuò)誤和問(wèn)題,并提供可解釋的結(jié)果,從而幫助用戶更好地理解和修正文本中的錯(cuò)誤。
總的來(lái)說(shuō),這篇文章提出了一種新的方法,可解釋的統(tǒng)一語(yǔ)言檢查,該方法可以同時(shí)檢測(cè)文本中的多種語(yǔ)言錯(cuò)誤和問(wèn)題,并提供可解釋的結(jié)果。該方法具有重要的應(yīng)用前景,可以幫助用戶更好地理解和修正文本中的錯(cuò)誤。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-514582.html
到了這里,關(guān)于論文閱讀 Interpretable Unified Language Checking的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!