国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Enabling Large Language Models to Generate Text with Citations

這篇具有很好參考價值的文章主要介紹了Enabling Large Language Models to Generate Text with Citations。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

本文是LLM系列的文章,針對《Enabling Large Language Models to Generate Text with Citations》的翻譯。

摘要

大型語言模型(LLM)已成為一種廣泛使用的信息搜索工具,但其生成的輸出容易產(chǎn)生幻覺。在這項工作中,我們的目標(biāo)是使LLM能夠生成帶有引用的文本,提高其事實的正確性和可驗證性。現(xiàn)有的工作主要依賴于商業(yè)搜索引擎和人類評估,這使得復(fù)制和比較不同的建模方法具有挑戰(zhàn)性。我們提出了ALCE,這是LLM自動引文評估的第一個基準(zhǔn)。ALCE收集了一組不同的問題和檢索語料庫,需要建立端到端的系統(tǒng)來檢索支持證據(jù)并生成帶有引文的答案。我們建立了三個維度的自動指標(biāo)——流利性、正確性和引用質(zhì)量——并證明了它們與人類判斷的強烈相關(guān)性。我們用最先進的LLM和新穎的提示策略進行的實驗表明,當(dāng)前的系統(tǒng)有相當(dāng)大的改進空間——例如,在ELI5數(shù)據(jù)集上,即使是最好的模型,其49%的生成都缺乏完整的引用支持。我們的廣泛分析進一步突出了有前景的未來方向,包括開發(fā)更好的檢索器,推進長上下文LLM,以及提高綜合來自多個來源的信息的能力。

1 引言

2 任務(wù)設(shè)置和數(shù)據(jù)集

3 自動評估

4 建模

5 實驗

6 人類評估

7 相關(guān)工作

8 結(jié)論

我們提出了ALCE,這是第一個用引文評估LLM生成的自動基準(zhǔn)。我們部署了自動指標(biāo)來衡量流利性、正確性和引用質(zhì)量,并通過人工評估驗證其有效性。我們探索了將引文納入LLM的各種策略,并證明當(dāng)前的系統(tǒng)在ALCE方面有相當(dāng)大的改進空間。
我們的實驗突出了許多有前景的研究方向,包括(1)增強LLM中的檢索和改進檢索集成,(2)開發(fā)長上下文LLM,以及(3)提高LLM合成多種來源的能力。更有趣的是,這些研究建議超出了ALCE的設(shè)置范圍(例如,長上下文LLM有許多令人興奮的應(yīng)用),ALCE可以作為其開發(fā)的寶貴試驗臺。

不足

我們的評估并非沒有缺陷:(1)MAUVE被發(fā)現(xiàn)對輸出長度敏感,可能會提供不穩(wěn)定的結(jié)果。(2) 對于ELI5的正確性評估,由于問題的開放性,自動生成的聲明可能無法涵蓋所有可能的答案。(3) 我們的引文質(zhì)量評估受到NLI模型準(zhǔn)確性的限制;對于引用精度,NLI模型無法檢測到“部分支持”的情況,因此導(dǎo)致引用精度得分低于人類評估。
盡管我們相信我們策劃的數(shù)據(jù)集與現(xiàn)實世界用戶問題的分布非常相似,但我們也承認(rèn),它們沒有涵蓋更具挑戰(zhàn)性的場景,如多跳推理、數(shù)學(xué)推理和代碼完成。
在我們的實驗中,我們專注于在不更新LLM模型權(quán)重的情況下提示LLM。由于缺乏監(jiān)督數(shù)據(jù),直接訓(xùn)練模型以納入引文仍然具有挑戰(zhàn)性。然而,我們觀察到某些人類指令數(shù)據(jù)集包含與我們的任務(wù)設(shè)置類似的示例。我們將訓(xùn)練LLM去生成引文的探索留給未來工作。文章來源地址http://www.zghlxwxcb.cn/news/detail-663514.html

到了這里,關(guān)于Enabling Large Language Models to Generate Text with Citations的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【閱讀筆記】Graph of Thoughts: Solving Elaborate Problems with Large Language Models

    【閱讀筆記】Graph of Thoughts: Solving Elaborate Problems with Large Language Models

    Website code: https://github.com/spcl/graph-of-thoughts 作者介紹了Graph of Thought (GoT):一個具備提高LLM提示能力,超越了思維鏈或思維樹 (ToT) 等范式提供的能力的框架。GoT的關(guān)鍵思想和主要優(yōu)勢是能夠?qū)LM生成的信息建模為任意圖,其中信息單位(“LLM思想”)是頂點,而邊對應(yīng)于這些頂

    2024年02月10日
    瀏覽(39)
  • 【LLM+三維場景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

    【LLM+三維場景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

    論文主頁 論文地址 代碼地址(未放) 一句話生成3D世界,未公布代碼已獲141星!或引發(fā)3D建模行業(yè)革命 In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given i

    2024年03月25日
    瀏覽(29)
  • WizardKM:Empowering Large Language Models to Follow Complex Instructions

    WizardKM:Empowering Large Language Models to Follow Complex Instructions

    作者表明當(dāng)前nlp社區(qū)的指令數(shù)據(jù)比較單一,大部分都是總結(jié)、翻譯的任務(wù),但是在真實場景中,人們有各式各樣的需求,這限制了模型的通用性。 作者提到這種人類標(biāo)注的qa數(shù)據(jù)如果質(zhì)量比較高,那么將很好的釋放模型的性能,但是現(xiàn)在獲取數(shù)據(jù)存在一些問題: 標(biāo)注這類數(shù)據(jù)

    2024年02月01日
    瀏覽(18)
  • 視頻理解大模型調(diào)研論文《Video Understanding with Large Language Models: A Survey》簡要介紹

    視頻理解大模型調(diào)研論文《Video Understanding with Large Language Models: A Survey》簡要介紹

    本文是關(guān)于綜述論文《Video Understanding with Large Language Models: A Survey》的部分介紹。文章調(diào)研了將視頻理解和大語言模型結(jié)合的最新技術(shù),從任務(wù)、方法、評價、應(yīng)用等方面對視頻大語言模型進行介紹。本文寫于2024年4月。 有關(guān)本專欄的更多內(nèi)容,請參考大語言模型論文調(diào)研專

    2024年04月26日
    瀏覽(28)
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

    本文是LLM系列文章的內(nèi)容,針對《Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models》的翻譯。 如今,大型語言模型(LLM)通過提供一些工具用法的演示來學(xué)習(xí)使用新工具。不幸的是,演示很難獲得,如果選擇了錯誤的演示,可能會導(dǎo)致不希望的有偏見的使用。即使在

    2024年02月14日
    瀏覽(20)
  • 論文系列之Applying Large Language Models API to Issue Classification Problem

    這些研究展示了自動標(biāo)記issue類型的不同方法,以及如何利用自然語言處理(NLP)和機器學(xué)習(xí)技術(shù)來輔助開源軟件(OSS)項目的維護者和新貢獻者。 通過這種方法,研究者能夠在較小的數(shù)據(jù)集上訓(xùn)練模型,并在個體項目中實現(xiàn)了高達93.2%的精度、95%的召回率和89.3%的F1分?jǐn)?shù)。這

    2024年02月02日
    瀏覽(54)
  • 論文筆記--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode

    論文筆記--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode

    標(biāo)題:Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions 作者:John Joon Young Chung, Ece Kamar, Saleema Amershi 日期:2023 ??文章給出了一種基于LLM自動生成訓(xùn)練數(shù)據(jù)的方法,且通過不同的實驗設(shè)置嘗試增加生成數(shù)據(jù)的多樣性而又不降低數(shù)據(jù)

    2024年02月03日
    瀏覽(29)
  • 文獻閱讀:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文獻閱讀:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文獻閱讀:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章簡介 2. 方法介紹 3. 實驗考察 1. 實驗結(jié)果 2. 消解實驗 3. Consistency Stability 4. 結(jié)論 思考 文獻鏈接:https://arxiv.org/abs/2303.16854 這一篇文章是我司的另一篇關(guān)于GPT模型的Prompt工程調(diào)優(yōu)的文章,不過這篇文章

    2024年02月12日
    瀏覽(23)
  • TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

    本文是LLM系列的文章之一,針對《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻譯。 盡管開源大型語言模型(LLM)及其變體(如LLaMA和Vicuna)取得了進步,但它們在執(zhí)行更高級別的任務(wù)方面仍然受到很大限制,例如遵循人類指令使用外部工具(API)。這是因

    2024年02月10日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包