緩解大語言模型(LLM)幻覺的可行方法探究
轉(zhuǎn)載請標明出處,??抄襲
摘要:2022年11月OpenAI推出能夠進行多場景對話的大語言模型ChatGPT,ChatGPT憑借大規(guī)模的訓(xùn)練參數(shù)、海量的訓(xùn)練數(shù)據(jù)及強化學(xué)習(xí)人類反饋在語義理解、語言生成、機器翻譯、知識科普、程序編輯等多個方面獲得了巨大成功,引發(fā)了新的技術(shù)浪潮。但由于模型訓(xùn)練數(shù)據(jù)缺乏時效性、領(lǐng)域知識不足,以及訓(xùn)練架構(gòu)存在缺陷、復(fù)雜推理能力不足等問題導(dǎo)致大語言模型回復(fù)生成存在“幻覺”,經(jīng)常產(chǎn)生事實不一致的回復(fù)或進行事實捏造。上述問題致使大語言模型在對于準確性要求較高的垂直領(lǐng)域應(yīng)用困難,如農(nóng)業(yè)、醫(yī)療等。隨著對大規(guī)模語言模型的深入研究和探討,如何緩解大語言模型“幻覺”問題逐漸成為眾多研究者的熱議課題。從大語言模型幻覺產(chǎn)生原因出發(fā),目前緩解其生成“幻覺”、提高回復(fù)準確性的可行方法主要有高質(zhì)量數(shù)據(jù)集構(gòu)建、思維鏈推理、檢索增強、知識約束、模型編輯、解碼優(yōu)化等。本文首先概述了大語言模型的訓(xùn)練過程、“幻覺”產(chǎn)生原因,進而對現(xiàn)有的緩解大語言模型幻覺的可行方法進行總結(jié)和分析,最后提出了自己對緩解大語言模型幻覺可行方法的思考。
關(guān)鍵詞:大語言模型幻覺;思維鏈;檢索增強;知識約束
1.引言
1.1 ChatGPT訓(xùn)練架構(gòu)及訓(xùn)練過程概述
ChatGPT[1]為基于GPT(Generative Pre-trained Transformer,GPT)[2]架構(gòu)的的通用型對話語言模型,GPT是一個基于Transformer[3]解碼器結(jié)構(gòu)的深度學(xué)習(xí)模型,由多個相同的Transformer塊組成,其中每個Transformer塊包括多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層。通過自注意力機制,模型能夠在生成每個單詞時關(guān)注輸入文本的不同部分,這有助于捕捉長距離依賴關(guān)系。同時每個Transformer塊之間都有殘差連接和層歸一化,用于保持信息流的順暢和避免梯度消失。GPT的提出動機為利用自然語言大量未標記的文本語料及少量的任務(wù)標注數(shù)據(jù)訓(xùn)練一個在特定任務(wù)表現(xiàn)良好的語言模型,因此GPT主要包括在大規(guī)模語料下的無監(jiān)督預(yù)訓(xùn)練和基于下游任務(wù)標注數(shù)據(jù)的有監(jiān)督微調(diào)兩部分。在微調(diào)期間GPT能夠利用任務(wù)感知的輸入轉(zhuǎn)換實現(xiàn)有效遷移,只需對模型體系結(jié)構(gòu)進行少量更改就可實現(xiàn)快速任務(wù)自適應(yīng)。
ChatGPT與GPT1、GPT2、GPT3的本質(zhì)區(qū)別在于在有監(jiān)督微調(diào)過程中使用了強化學(xué)習(xí)人類反饋(Reinforment Learning from Human Feedback,RLHF)[4],如圖1所示。具體地,ChatGPT通過人工標注對回復(fù)進行評分,利用評分結(jié)果訓(xùn)練獎勵模型(Reward Model),并基于獎勵模型使用強化學(xué)習(xí)算法PPO(Proximal Policy Optimization,PPO)[5]微調(diào)模型,使其回復(fù)生成與人類對其,以此提高回復(fù)的幫助性、忠實性,降低其有害性。
圖1 InstructGPT有監(jiān)督微調(diào)過程
ChatGPT的成功引發(fā)了自然語言處理領(lǐng)域新的技術(shù)浪潮,但其模型參數(shù)、訓(xùn)練數(shù)據(jù)規(guī)模較大、代碼架構(gòu)不開源,復(fù)現(xiàn)困難,因而許多研究者基于Transformer架構(gòu)及上述微調(diào)過程開發(fā)了較小規(guī)模的大語言模型(Large Language Model,LLM),如Bloomz[6]、LLaMa[7]、BaiChuan[8]、ChatGLM[9]等。
1.2 ChatGPT“幻覺”產(chǎn)生原因
ChatGPT雖然在語義理解、語言生成方面展現(xiàn)了驚人的能力,但仍存在一本正經(jīng)胡說八道的情況,即“幻覺”。圖2展示了大語言模型“幻覺”的示例,用戶詢問ChatGPT的訓(xùn)練架構(gòu)及訓(xùn)練過程,ChatGPT在回復(fù)過程中提出其使用Transformer解碼器結(jié)構(gòu)(實際為Transformer解碼器結(jié)構(gòu))。
圖2 大語言模型“幻覺”示例
Huang等[10]根據(jù)大語言模型的回復(fù)場景將幻覺分類“事實性幻覺”與“忠實性幻覺”兩類。前者指模型生成的內(nèi)容與可驗證的現(xiàn)實世界事實不一致,具體可以分為事實不一致(與現(xiàn)實世界信息相矛盾)和事實捏造(壓根沒有,無法根據(jù)現(xiàn)實信息驗證)。后者指模型生成的內(nèi)容與用戶的指令或上下文不一致,包括指令不一致(輸出偏離用戶指令)、上下文不一致(輸出與上下文信息不符)、邏輯不一致三類(推理步驟以及與最終答案之間的不一致)。
大語言模型之所以存在“幻覺”問題,與其訓(xùn)練過程有很大關(guān)系。Huang等[10]將其歸結(jié)為三類:
(1)訓(xùn)練數(shù)據(jù)。大語言模型的訓(xùn)練依賴海量數(shù)據(jù),但數(shù)據(jù)中很容易包含錯誤信息和偏見,且數(shù)據(jù)往往存在滯后性,導(dǎo)致部分大語言模型回復(fù)偏差、時效性不強。同時大語言模型本身存在知識邊界,即對事實性知識利用率低下,其在訓(xùn)練過程中可能會過度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔計數(shù),從而導(dǎo)致幻覺。
(2)架構(gòu)及策略缺陷、信念錯位。語言生成模型會基于之前的token對下一個token進行預(yù)測,這種單向建模不僅阻礙了模型捕獲復(fù)雜的上下文關(guān)系的能力還可能造成級聯(lián)錯誤,同時自注意力模塊存隨著token長度增加,不同位置的注意力被稀釋。此外,ChatGPT利用RLHF進行微調(diào),在輸出符合人類偏好回復(fù)的同時可能會犧牲信息的真實性,如圖3所示。
(3)推理。從筆者角度來看大語言模型的推理缺陷包括一部分,一部分是不完美的編碼策略,大語言模型在預(yù)測下一個token時一般采用貪心策略(即輸出概率值最大的token),使模型表達能力受限;另一部分是大語言模型缺乏復(fù)雜推理的能力,在數(shù)值分析、多步推理(如醫(yī)療領(lǐng)域的對話診斷)等方面缺少連貫性、合理性。
圖3 由于“迎合”人類造成的幻覺
從大語言模型“幻覺”產(chǎn)生的各個原因出發(fā),不同研究者展開了相應(yīng)的工作以提高LLM回復(fù)生成的精讀和準確性,加快其在各個領(lǐng)域的落地應(yīng)用,本文將對部分緩解LLM“幻覺”的工作進行介紹和分析。
2.構(gòu)建高質(zhì)量對話數(shù)據(jù)集
專業(yè)的、高質(zhì)量、時效性的訓(xùn)練數(shù)據(jù)集能夠在一定程度上提高LLM在不同領(lǐng)域的表現(xiàn),具體表現(xiàn)為:
(1)更好的泛化能力。使用高質(zhì)量的訓(xùn)練數(shù)據(jù)可以使LLM學(xué)到更準確、更廣泛的語言模式,從而提高其在各種任務(wù)上的泛化能力。
(2)更準確的語義理解。專業(yè)的數(shù)據(jù)集通常包含更多領(lǐng)域?qū)I(yè)性的語言,使模型更好地理解特定領(lǐng)域的語義。這對于特定領(lǐng)域的任務(wù)(例如醫(yī)學(xué)、法律等)非常重要,如香港中文大學(xué)利用2600萬條醫(yī)療領(lǐng)域?qū)υ挃?shù)據(jù)集微調(diào)BaiChuan,提出醫(yī)療健康問答LLM,在醫(yī)療問題表現(xiàn)上超過ChatGPT[11]。
(3)提高模型對多樣性的理解。時效性的數(shù)據(jù)集有助于模型跟蹤社會和技術(shù)變化,從而更好地理解和處理新的語言表達方式、新的詞匯和短期趨勢。
(4)減少偏見。使用高質(zhì)量數(shù)據(jù)集可以減少模型學(xué)到的偏見,因為這樣的數(shù)據(jù)集更傾向于提供更全面和平衡的信息。這對于構(gòu)建公平和可靠的模型非常重要。
(5)更好的上下文理解。專業(yè)數(shù)據(jù)集通常包含更多上下文信息,有助于模型更好地理解和生成連貫的語言。
圖4 HuatuoGPT
高質(zhì)量的訓(xùn)練數(shù)據(jù)集一般需要領(lǐng)域?qū)<覙俗?,成本高昂。因此為了降低成本的同時提高模型能力,West等[12],Li等[13]分別使用符號知識蒸餾(Symbolic Knowledge Distill)將大語言模型的能力遷移到開源的、可微調(diào)的小規(guī)模LLM上,即通過大規(guī)模LLM利用提示工程(Prompt Learning)構(gòu)造數(shù)據(jù)集,并基于該數(shù)據(jù)集微調(diào)小規(guī)模LLM。
圖5 大語言模型知識蒸餾
除此之外,很多學(xué)者認為ChatGPT之所以能獲得如此驚人的表現(xiàn)力很大原因歸根于RLHF的使用,但由于硬件資源、人力資源的限制,很難在短時間內(nèi)實現(xiàn)模型訓(xùn)練,因而Yuan等[14]提出了RRHF(Rank Responses to align Human Feedback),利用專家或者性能優(yōu)秀的大語言模型(如ChatGPT)對模型生成的回復(fù)進行評估,并基于Rank Loss實現(xiàn)模型參數(shù)更新,如圖6所示。相似的,Lee等[15]提出RLAIF(Reinforment Learning from Artificial Intelligence Feedback),通過AI模型監(jiān)督其他AI模型,即在SFT階段,從初始模型中采樣,然后生成自我批評和修正,并根據(jù)修正后的反應(yīng)微調(diào)原始模型。在RL階段,從微調(diào)模型中采樣,使用一個模型來評估生成的樣本,并從這個AI偏好數(shù)據(jù)集訓(xùn)練一個偏好模型,如圖7所示。
圖6 RRHF
圖7 RLAIF
分析與思考:如果說之前的人工智能是“有多少人工就有多少智能”,那現(xiàn)在的人工智能就是“有多少數(shù)據(jù)就有多少智能”。雖然高質(zhì)量的、專業(yè)的數(shù)據(jù)標注能夠使LLM從一個通用的語言模型轉(zhuǎn)變?yōu)閷I(yè)領(lǐng)域?qū)υ捘P?,但由于模型架?gòu)、編碼策略以及對知識的運用等缺陷,致使其仍然存在幻覺問題。此外,符號知識蒸餾、RRHF、RLAIF雖然降低了模型訓(xùn)練成本,但也伴隨著一個致命的問題——訓(xùn)練得到的模型以ChatGPT為上限且很難超越ChatGPT。
3.利用思維鏈提高大語言模型復(fù)雜推理能力
基于思維鏈(Chain of Thought,COT)的推理被視為大語言模型涌現(xiàn)能力的重要標志[16],其本質(zhì)是將復(fù)雜問題分解為小問題,可以通過提供少樣本[17]或零樣本[18]思維鏈示例來鼓勵模型執(zhí)行推理,激勵模型“Think Step by Step”,給出從問題到答案的一步步思考步驟,如圖8所示。思維鏈通過顯示給出問題的推理過程能夠清晰明了的驗證答案的正確性并在答案出現(xiàn)錯誤時進行糾錯,而且利用“Think Step by Step”不僅可以激發(fā)LLM對于其參數(shù)中隱含知識的應(yīng)用,而且能夠促使LLM將復(fù)雜的問題分解為待解決的小問題,并使其在一步步解決小問題的過程中完成復(fù)雜問題的總體推理。
COT通過提示工程可以使模型給出問題解決步驟,更新了直接由問題答案的生成范式,能在一定程度上約束和檢測LLM的生成幻覺。
圖8 Few-Shot COT & Zero-Shot COT
COT在復(fù)雜推理任務(wù)上表現(xiàn)的優(yōu)越性能吸引了一大批研究者,目前思維鏈的發(fā)展主要經(jīng)過了COT、Self-Consistency COT[19]、TOT(Tree of Thought)[20]、GOT(Graph of Thought)[21]。COT為簡單的<問題,推理步驟及回復(fù)>的鏈式推理結(jié)構(gòu);Self-Consistency COT為多條<問題,推理步驟及回復(fù)>的鏈式推理結(jié)構(gòu)并通過最終的投票機制選擇最合理的推理步驟;TOT為樹狀推理結(jié)構(gòu),其模擬了人類認知的規(guī)劃和決策模式(一種快速、自動、無意識的模式和一種緩慢、深思熟慮的意識模式;第二種可以探索更多的選擇,且能對當(dāng)前狀態(tài)進行評估,同時主動展望未來/回溯以得到更加全局的決策,TOT為后者),ToT積極地維護一個思想樹,其中每個思想節(jié)點都是一個連貫的語言序列,作為解決問題的中間步驟,通過對思維樹的遍歷尋找最終的解決方案;GOT為圖形推理結(jié)構(gòu),允許對問題進行分解和合并。無論是鏈式、樹狀還是圖形推理結(jié)構(gòu)均能夠通過對問題的規(guī)劃和決策找到合理的解決方案,并對不合理的方案進行排除,因而能夠提升回復(fù)的準確性、減少幻覺。
圖9 COT系列
圖10 MindMap
分析與思考:大模型幻覺的生成很大程度上來源于對內(nèi)在知識理解和運用的不足,而COT恰恰可以將問題分解為規(guī)模較小的子問題,通過一步步解決子問題提高LLM對知識的理解和運用(需要注意的是COT僅僅通過Prompt激發(fā)模型內(nèi)在潛能,并沒有引入新的數(shù)據(jù)或?qū)δP瓦M行微調(diào))。但上述COT仍停留在數(shù)值任務(wù)規(guī)劃和決策方面,難以直接遷移到現(xiàn)實應(yīng)用中,且在解決問題過程中缺乏對中間過程的“自解釋”,若能過在回復(fù)過程中給出每個步驟的解釋將大大提升LLM應(yīng)用的置信度,如在對話問診過程中給出每一步詢問癥狀的原因以及最終診斷結(jié)果的原因。雖然有上述問題,但COT的規(guī)劃和決策給LLM解決現(xiàn)實問題提供了一條可行的現(xiàn)時途徑,目前已有初步研究,如MindMap[22]。
4.基于檢索增強的大語言模型
檢索增強(Retrieval-Augmented Generation,RAG)[23]是一種結(jié)合生成模型和檢索模型的方法,在這種方法中,生成模型與一個檢索模型協(xié)同工作,檢索模型負責(zé)從大量的候選文本中選擇相關(guān)信息,而生成模型則負責(zé)生成輸出。因而基于檢索增強的大語言模型包括兩個階段:檢索階段及生成階段。檢索階段使用檢索模型從候選文本庫中檢索與問題相關(guān)的信息??梢曰谖臋n相似度、關(guān)鍵詞匹配等方法選擇與任務(wù)相關(guān)的文本片段。生成階段將檢索到的證據(jù)與生成模型結(jié)合,生成最終的輸出。
檢索增強在緩解大模型幻覺任務(wù)中發(fā)揮著至關(guān)重要的作用。通過檢索增強不僅能夠提高信息準確性、解決生成模型偏向性問題,還能提高多模態(tài)任務(wù)性能、更好地處理稀缺任務(wù),進而提高系統(tǒng)的可控性,具體如下:
(1)提高信息準確性。通過引入檢索模型,生成模型可以更容易地訪問和利用大量的外部信息,這種信息不僅包含事實性證據(jù)還包含時效性信息,從而提高生成的文本的信息準確性和時效性。
(2)解決生成模型偏向性問題。生成模型在生成文本時可能受到預(yù)訓(xùn)練數(shù)據(jù)的偏向性影響,而通過檢索階段引入的外部信息可以有助于緩解這種偏向性問題。
(3)提高多模態(tài)任務(wù)性能。對于一些需要同時處理文本和其他模態(tài)數(shù)據(jù)(如圖像、知識庫等)的任務(wù),檢索增強可以使生成模型更好地結(jié)合多模態(tài)信息。
(4)更好地處理稀缺任務(wù)。在一些特定領(lǐng)域或任務(wù)中,訓(xùn)練數(shù)據(jù)可能相對較少。檢索增強可以幫助模型利用外部信息,彌補數(shù)據(jù)不足的問題。
檢索增強允許在生成階段引入外部信息,使得系統(tǒng)更容易受控制,可以滿足特定的任務(wù)要求或限制,能夠在各種自然語言處理任務(wù)中提高模型的性能和魯棒性?;跈z索增強的大語言模型可以從不同角度進行分類,根據(jù)檢索的內(nèi)容來源可以將檢索增強的大語言模型分為基于知識庫的檢索增強與基于網(wǎng)頁的檢索增強(如WebCPM[24]、WebGLM[25]),但其本質(zhì)都是通過對知識的檢索,得到進行回復(fù)生成的相關(guān)證據(jù);根據(jù)檢索的形式可以將檢索增強的大語言模型分為一次檢索、迭代檢索和事后檢索[10]。
圖11 檢索增強不同形式
如圖11所示,一次檢索為根據(jù)問題去知識庫中檢索一次證據(jù)后給出生成回復(fù);迭代檢索為進行多步檢索后給出最終回復(fù),適用于多步問答或?qū)栴}分解,每次對一個問題進行檢索,如IRCOT[26];事后檢索為LLM生成回復(fù)后對知識庫進行檢索,根據(jù)檢索證據(jù)對回復(fù)進行驗證以作出修改或輸出。
圖12 WebGLM & WebCPM
一般來說,傳統(tǒng)的RAG遵循共同的范式:query+context→LLM,query表示用戶的輸入,context表示檢索獲得的補充信息,兩者共同輸入到LLM中實現(xiàn)回復(fù)生成,該范式可認為是一種檢索前置的被動的增強方式。上述傳統(tǒng)的檢索增強雖然能夠為LLM提供回復(fù)生成的證據(jù),提高回復(fù)的準確性和有效性,但是傳統(tǒng)的基于檢索增強的LLM并沒有判斷當(dāng)前問題是否需要檢索(如用戶提問“你可以做一首春天的詩嗎?”,這種種情況下是不需要檢索的)且沒有對于檢索到的結(jié)果進行篩選,檢索到的證據(jù)可能存在一定的錯誤或者與當(dāng)前問題相關(guān)性不強。因而Asai等[27]推動了RAG向Self-RAG的轉(zhuǎn)變,Self-RAG與RAG相比會對當(dāng)前情況是否需要檢索進行判斷,并對檢索到的證據(jù)進行評估,選擇最合理的檢索信息輔助回復(fù)生成,如圖13所示。Self-RAG的主要步驟如下:
(1)判斷是否需要額外檢索事實性信息(retrieve on demand),僅當(dāng)有需要時才召回;
(2)平行處理每個片段:生產(chǎn)prompt+一個片段的生成結(jié)果;
(3)使用反思字段,檢查輸出是否相關(guān),選擇最符合需要的片段;
(4)重復(fù)檢索;
(5)生成結(jié)果會引用相關(guān)片段,以及輸出結(jié)果是否符合該片段,便于查證事實。
圖13 Self-RAG
Self-RAG的關(guān)鍵在于按需檢索和自反思,其與RAG的不同在于前者相較于后者更加主動和智能。除此之外,在RAG的基礎(chǔ)上,目前還有一些工作會對LLM的回復(fù)進行引文標注[28],即對檢索到的證據(jù)在生成的回復(fù)中進行標明,如圖14所示。引文標注一方面可以提高證據(jù)檢索的利用,避免無用的證據(jù)檢索,另一方面也提升了回復(fù)生成的置信度,可以在一定程度上通過檢索證據(jù)約束緩解LLM的“幻覺”。
圖14 引文標注
分析與思考:無論是RAG、Self-RAG還是引文標注無一不是利用外部知識增加對LLM回復(fù)生成的證據(jù)支持,能夠通過prompt的方式增加回復(fù)中的事實性證據(jù),緩解回復(fù)中的“幻覺”。但在利用檢索增強的過程中也存在一定的問題:(1)計算成本高,在進行檢索時需要講證據(jù)與問題進行相似度計算,在知識庫龐雜時計算過程是十分昂貴的,因而對檢索的必要性進行判斷及優(yōu)化檢索算法是十分必要的;(2)信息準確性,基于RAG的LLM回復(fù)生成的準確性十分依賴證據(jù)的有效性,如果證據(jù)質(zhì)量低下將使生成效果大打折扣,同時對于檢索到的結(jié)果不能全部利用,因而如何檢索有力證據(jù)提高證據(jù)利用是十分關(guān)鍵的。
5.基于知識約束的大語言模型
無論是構(gòu)建高質(zhì)量的數(shù)據(jù)集,還是COT提升復(fù)雜推理能力,以及檢索增強無一不是利用可行技術(shù)提高LLM對于其內(nèi)在隱含知識或外部顯示知識的利用。知識對于不同領(lǐng)域而言都是應(yīng)用的基礎(chǔ),使用知識約束可以提高模型的可控性和準確性,增加模型的可解釋性和領(lǐng)域適應(yīng)性。本文小節(jié)2-4雖然都涉及了知識的應(yīng)用,但大多是以“知識外掛”的形式實現(xiàn)的,并沒有將知識注入到模型的訓(xùn)練過程中,本節(jié)將對使用知識控制LLM訓(xùn)練過程的部分方法進行介紹。
圖15 利用Focus Learning增加知識權(quán)重
在自然語言處理任務(wù)中使用廣泛的知識類型包括兩大類:文本知識和知識圖譜(Knowledge Graph,KG)。圖15展示了一個基于知識的對話系統(tǒng)的模型架構(gòu),與其他使用知識約束保持回復(fù)生成和知識之間的協(xié)調(diào)一致方法不同,Deng等[29]提出使用Focus Learning(FocusL),通過直接縮放相應(yīng)的目標損失來調(diào)整每個token對優(yōu)化方向的貢獻。其關(guān)注重點主要有兩個:(1)如何定位所需的學(xué)習(xí)重點,即如何定位與知識相關(guān)的tokens;(2)給定所需的學(xué)習(xí)焦點,如何糾正原來的學(xué)習(xí)焦點,即定位到與知識相關(guān)的token位置后,如何增加其對模型學(xué)習(xí)訓(xùn)練的影響。針對以上挑戰(zhàn),Deng等首先提出了一種定位方法,利用知識和每個響應(yīng)token之間的相關(guān)性分布來定位knowledge-aware tokens。而后設(shè)計了一個relevance-to-weight transformation修改LLM生成的token概率,以提供動態(tài)的token級權(quán)重,用于調(diào)整交叉熵損失。最后,利用加權(quán)損失來鼓勵該模型特別關(guān)注知識的利用。
圖16 基于知識圖譜約束的回復(fù)生成
與基于文本知識的約束不同,使用知識圖譜約束的回復(fù)生成由于結(jié)構(gòu)化知識圖譜與文本回復(fù)的知識結(jié)構(gòu)不同,如何進行知識融合一直是該方向的重點。Agarwal等[30]通過將檢索的知識圖譜路徑轉(zhuǎn)化為文本實現(xiàn)知識融合,雖然在一定程度上可以提升模型的表現(xiàn),但在融合過程中損失了KG蘊含的結(jié)構(gòu)信息。此外Hu等[31]、GreaseLM[32]通過圖神經(jīng)網(wǎng)絡(luò)將KG進行嵌入,并將嵌入向量與文本向量進行拼接實現(xiàn)知識融合。而且Hu等在選擇節(jié)點和路徑時采用重啟隨機游走(Random Walk with Restart,RWR)計算節(jié)點對于問題中核心詞的權(quán)重,相當(dāng)于利用KG的拓撲結(jié)構(gòu)信息對KG中不重要的信息進行了篩選,更關(guān)注KG中與當(dāng)前問題相關(guān)的表示。除此之外也有一些較為傳統(tǒng)的KG知識增強的研究,如KagNet[33]、QA-GNN[34],前者會計算KG節(jié)點與問題的相似度,后者會對KG中的路徑進行打分以尋找對于問題關(guān)鍵的信息。
無論是使用文本知識還是知識圖譜實現(xiàn)對LLM的知識增強,其本質(zhì)都是利用知識約束LLM的輸出,減少幻覺和危害,提高回復(fù)的質(zhì)量和有效性,是一個十分有益且前景光明的研究。
圖17 KagNet & QA-GNN & GreaseLM
分析與思考:筆者認為知識是學(xué)習(xí)和思考的基礎(chǔ),因而為緩解LLM的“幻覺”引入知識是十分必要且不可或缺的,但就知識的利用角度而言,目前所采用的方法還較為基礎(chǔ),尤其是對于知識圖譜的利用仍有很大的空白。知識圖譜由于其結(jié)構(gòu)化,天然具有一定的推理性,而且節(jié)點之間的結(jié)構(gòu)關(guān)系也在一定程度上定義了節(jié)點的“遠近親疏”,可以同F(xiàn)ocusL一樣用于生成tokens的權(quán)重修改。
6.總結(jié)與展望
大語言模型一經(jīng)推出便憑借其驚人的語義理解和語言生成能力收獲了大批用戶,經(jīng)過近一年多的發(fā)展更是展現(xiàn)出了蓬勃的生命力,然而由于訓(xùn)練數(shù)據(jù)的“過時”、訓(xùn)練架構(gòu)和解碼策略的缺陷、推理能力的欠缺,大語言模型在回復(fù)生成中仍存在“幻覺”。為了緩解大語言模型的幻覺問題,推進其在不同領(lǐng)域的落地應(yīng)用,眾多學(xué)者從“幻覺”產(chǎn)生原因出發(fā),站在不同角度提出了緩解大語言模型“幻覺”的可行之法,包括但不限于構(gòu)建高質(zhì)量數(shù)據(jù)集、通過思維鏈提示激發(fā)大語言模型的隱含知識、構(gòu)建知識庫進行檢索增強、顯式利用知識進行生成約束、知識編輯、解碼策略優(yōu)化等。本文主要對上述前四個方面進行了概述和分析,從方法本質(zhì)角度而言,以上方法無一不是利用知識增加對模型生成的約束,但從知識利用角度來看,當(dāng)前的方法還有很大改進空間。如第5節(jié)提到的知識約束其實大多都是通過知識融合實現(xiàn)的,并沒有真正利用知識約束模型解碼、token概率選擇,此外結(jié)構(gòu)化的知識利用明顯不足,如基于知識圖譜的推理等?!安环e跬步無以至千里”,希望未來更多研究者從不同角度汲取經(jīng)驗,提出更多可行的解決方案。文章來源:http://www.zghlxwxcb.cn/news/detail-795249.html
參考文獻
[1]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[2]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
[3]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[4]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[5]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
[6]Muennighoff N, Wang T, Sutawika L, et al. Crosslingual generalization through multitask finetuning[J]. arXiv preprint arXiv:2211.01786, 2022.
[7]Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023.
[8]Yang A, Xiao B, Wang B, et al. Baichuan 2: Open large-scale language models[J]. arXiv preprint arXiv:2309.10305, 2023.
[9]Du Z, Qian Y, Liu X, et al. Glm: General language model pretraining with autoregressive blank infilling[J]. arXiv preprint arXiv:2103.10360, 2021.
[10]Huang L, Yu W, Ma W, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions[J]. arXiv preprint arXiv:2311.05232, 2023.
[11]Zhang H, Chen J, Jiang F, et al. HuatuoGPT, towards Taming Language Model to Be a Doctor[J]. arXiv preprint arXiv:2305.15075, 2023.
[12]West P, Bhagavatula C, Hessel J, et al. Symbolic knowledge distillation: from general language models to commonsense models[J]. arXiv preprint arXiv:2110.07178, 2021.
[13]Li L H, Hessel J, Yu Y, et al. Symbolic Chain-of-Thought Distillation: Small Models Can Also" Think" Step-by-Step[J]. arXiv preprint arXiv:2306.14050, 2023.
[14]Yuan Z, Yuan H, Tan C, et al. Rrhf: Rank responses to align language models with human feedback without tears[J]. arXiv preprint arXiv:2304.05302, 2023.
[15]Lee H, Phatale S, Mansoor H, et al. Rlaif: Scaling reinforcement learning from human feedback with ai feedback[J]. arXiv preprint arXiv:2309.00267, 2023.
[16]Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
[17]Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.
[18]Kojima T, Gu S S, Reid M, et al. Large language models are zero-shot reasoners[J]. Advances in neural information processing systems, 2022, 35: 22199-22213.
[19]Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.
[20]Yao S, Yu D, Zhao J, et al. Tree of thoughts: Deliberate problem solving with large language models[J]. arXiv preprint arXiv:2305.10601, 2023.
[21]Besta M, Blach N, Kubicek A, et al. Graph of thoughts: Solving elaborate problems with large language models[J]. arXiv preprint arXiv:2308.09687, 2023.
[22]Wen Y, Wang Z, Sun J. Mindmap: Knowledge graph prompting sparks graph of thoughts in large language models[J]. arXiv preprint arXiv:2308.09729, 2023.
[23]Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks[J]. Advances in Neural Information Processing Systems, 2020, 33: 9459-9474.
[24]Qin Y, Cai Z, Jin D, et al. WebCPM: Interactive Web Search for Chinese Long-form Question Answering[J]. arXiv preprint arXiv:2305.06849, 2023.
[25]Liu X, Lai H, Yu H, et al. WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences[J]. arXiv preprint arXiv:2306.07906, 2023.
[26]Trivedi H, Balasubramanian N, Khot T, et al. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions[J]. arXiv preprint arXiv:2212.10509, 2022.
[27]Asai A, Wu Z, Wang Y, et al. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection[J]. arXiv preprint arXiv:2310.11511, 2023.
[28]Gao T, Yen H, Yu J, et al. Enabling Large Language Models to Generate Text with Citations[J]. arXiv preprint arXiv:2305.14627, 2023.
[29]Deng Y, Zhang X, Huang H Y, et al. Towards faithful dialogues via focus learning[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023: 4554-4566.
[30]Agarwal O, Ge H, Shakeri S, et al. Knowledge graph based synthetic corpus generation for knowledge-enhanced language model pre-training[J]. arXiv preprint arXiv:2010.12688, 2020.
[31]Hu Z, Xu Y, Yu W, et al. Empowering language models with knowledge graph reasoning for open-domain question answering[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022: 9562-9581.
[32]Lin B Y, Chen X, Chen J, et al. Kagnet: Knowledge-aware graph networks for commonsense reasoning[J]. arXiv preprint arXiv:1909.02151, 2019.
[33]Yasunaga M, Ren H, Bosselut A, et al. QA-GNN: Reasoning with language models and knowledge graphs for question answering[J]. arXiv preprint arXiv:2104.06378, 2021.
[34]Zhang X, Bosselut A, Yasunaga M, et al. Greaselm: Graph reasoning enhanced language models for question answering[J]. arXiv preprint arXiv:2201.08860, 2022.文章來源地址http://www.zghlxwxcb.cn/news/detail-795249.html
到了這里,關(guān)于緩解大語言模型(LLM)幻覺的可行方法探究(課程綜述)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!