本文是LLM系列的文章,針對《Enabling Large Language Models to Generate Text with Citations》的翻譯。
摘要
大型語言模型(LLM)已成為一種廣泛使用的信息搜索工具,但其生成的輸出容易產(chǎn)生幻覺。在這項工作中,我們的目標(biāo)是使LLM能夠生成帶有引用的文本,提高其事實的正確性和可驗證性。現(xiàn)有的工作主要依賴于商業(yè)搜索引擎和人類評估,這使得復(fù)制和比較不同的建模方法具有挑戰(zhàn)性。我們提出了ALCE,這是LLM自動引文評估的第一個基準(zhǔn)。ALCE收集了一組不同的問題和檢索語料庫,需要建立端到端的系統(tǒng)來檢索支持證據(jù)并生成帶有引文的答案。我們建立了三個維度的自動指標(biāo)——流利性、正確性和引用質(zhì)量——并證明了它們與人類判斷的強烈相關(guān)性。我們用最先進的LLM和新穎的提示策略進行的實驗表明,當(dāng)前的系統(tǒng)有相當(dāng)大的改進空間——例如,在ELI5數(shù)據(jù)集上,即使是最好的模型,其49%的生成都缺乏完整的引用支持。我們的廣泛分析進一步突出了有前景的未來方向,包括開發(fā)更好的檢索器,推進長上下文LLM,以及提高綜合來自多個來源的信息的能力。
1 引言
2 任務(wù)設(shè)置和數(shù)據(jù)集
3 自動評估
4 建模
5 實驗
6 人類評估
7 相關(guān)工作
8 結(jié)論
我們提出了ALCE,這是第一個用引文評估LLM生成的自動基準(zhǔn)。我們部署了自動指標(biāo)來衡量流利性、正確性和引用質(zhì)量,并通過人工評估驗證其有效性。我們探索了將引文納入LLM的各種策略,并證明當(dāng)前的系統(tǒng)在ALCE方面有相當(dāng)大的改進空間。
我們的實驗突出了許多有前景的研究方向,包括(1)增強LLM中的檢索和改進檢索集成,(2)開發(fā)長上下文LLM,以及(3)提高LLM合成多種來源的能力。更有趣的是,這些研究建議超出了ALCE的設(shè)置范圍(例如,長上下文LLM有許多令人興奮的應(yīng)用),ALCE可以作為其開發(fā)的寶貴試驗臺。文章來源:http://www.zghlxwxcb.cn/news/detail-663514.html
不足
我們的評估并非沒有缺陷:(1)MAUVE被發(fā)現(xiàn)對輸出長度敏感,可能會提供不穩(wěn)定的結(jié)果。(2) 對于ELI5的正確性評估,由于問題的開放性,自動生成的聲明可能無法涵蓋所有可能的答案。(3) 我們的引文質(zhì)量評估受到NLI模型準(zhǔn)確性的限制;對于引用精度,NLI模型無法檢測到“部分支持”的情況,因此導(dǎo)致引用精度得分低于人類評估。
盡管我們相信我們策劃的數(shù)據(jù)集與現(xiàn)實世界用戶問題的分布非常相似,但我們也承認(rèn),它們沒有涵蓋更具挑戰(zhàn)性的場景,如多跳推理、數(shù)學(xué)推理和代碼完成。
在我們的實驗中,我們專注于在不更新LLM模型權(quán)重的情況下提示LLM。由于缺乏監(jiān)督數(shù)據(jù),直接訓(xùn)練模型以納入引文仍然具有挑戰(zhàn)性。然而,我們觀察到某些人類指令數(shù)據(jù)集包含與我們的任務(wù)設(shè)置類似的示例。我們將訓(xùn)練LLM去生成引文的探索留給未來工作。文章來源地址http://www.zghlxwxcb.cn/news/detail-663514.html
到了這里,關(guān)于Enabling Large Language Models to Generate Text with Citations的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!