本文是LLM系列的相關文章,針對《Shepherd: A Critic for Language Model Generation》的翻譯。
摘要
隨著大型語言模型的改進,人們對利用這些模型的能力來完善其自身輸出的技術越來越感興趣。在這項工作中,我們介紹了Shepherd,這是一個專門針對批評模型響應和建議改進的語言模型,它超越了未經(jīng)編輯的模型的能力,可以識別各種錯誤并提供補救建議。我們方法的核心是一個高質(zhì)量的反饋數(shù)據(jù)集,我們根據(jù)社區(qū)反饋和人類注釋對其進行策劃。盡管Shepherd很?。?B參數(shù)),但它的批評與包括ChatGPT在內(nèi)的已建立模型的批評是等效的或首選的。使用GPT4進行評估,與競爭對手相比,Shepherd的平均勝率為53-87%。在人類評估中,Shepherd嚴格優(yōu)于其他模型,平均而言與ChatGPT密切相關。
1 引言
2 數(shù)據(jù)收集
3 Shepherd模型
4 評估反饋
5 結果
6 相關工作
7 結論
我們引入了一個新的模型來批評大型語言模型的生成。通過在多個數(shù)據(jù)集和不同的評估設置上進行廣泛的實驗,我們證明了我們的模型可以有效地評判答案,達到與ChatGPT相當?shù)男阅堋kS著LLM在越來越多的現(xiàn)實應用中被采用,我們認為開發(fā)自動機制來檢查模型生成是很重要的。我們的批判模型Shepherd可以非常有助于提高生成質(zhì)量和減少幻覺。文章來源:http://www.zghlxwxcb.cn/news/detail-664268.html
不足
在本文中,我們通過自動評估和人的評估來評估模型的批判能力。盡管我們努力嘗試大量的數(shù)據(jù)示例,并盡我們最大的財力使用人工注釋器,但很明顯,該論文可以從進一步的增強中受益。這可以通過執(zhí)行更細致的分析來實現(xiàn),該分析使用了更多的注釋器和更廣泛的各種任務。文章來源地址http://www.zghlxwxcb.cn/news/detail-664268.html
到了這里,關于Shepherd: A Critic for Language Model Generation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!