-
論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
-
項目地址:https://github.com/LAION-AI/Open-Assistant
-
數(shù)據(jù)集地址:https://huggingface.co/datasets/OpenAssistant/oasst1
-
體驗地址:https://open-assistant.io/chat
-
觀看公告視頻:https://youtu.be/ddG2fM9i4Kk
OpenAssistant介紹
最近火爆的ChatGPT使用如下圖三個步驟訓練得到,分別是:1)使用人類標注的數(shù)據(jù)訓練SFT模型;2)對模型輸出進行排序訓練RM模型;3)使用RM模型微調(diào)SFT模型;
下圖論文來自《Training language models to follow instructions
with human feedback》
通過監(jiān)督微調(diào)(SFT)、人類反饋強化學習 (RLHF)大大減少了有效利用LLMs能力所需的技能和領(lǐng)域知識,然而,RLHF需要依賴高質(zhì)量的人工反饋數(shù)據(jù),這種數(shù)據(jù)的創(chuàng)建成本很高,而且往往是專有的。為了讓大型語言模型民主化,LAION AI 等機構(gòu)的研究者收集了大量基于文本的輸入和反饋,創(chuàng)建了一個專門訓練語言模型或其他 AI 應(yīng)用的多樣化和獨特數(shù)據(jù)集 OpenAssistant Conversations。
該數(shù)據(jù)集是一個由13500 名志愿者人工生成、人工注釋的助理式對話語料庫,覆蓋了廣泛的主題和寫作風格,由 161443 條消息組成,分布在 66497 個會話樹中,使用 35 種不同的語言,有461292個質(zhì)量評級標注。對于任何希望創(chuàng)建 SOTA 指令模型的開發(fā)者而言,它都是一個非常寶貴的工具。并且任何人都可以免費訪問整個數(shù)據(jù)集。
此外,為了證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,該研究還提出了一個基于聊天的助手 OpenAssistant,它基于Pythia和LLaMA微調(diào)而來,其可以理解任務(wù)、與第三方系統(tǒng)交互、動態(tài)檢索信息??梢哉f這是第一個在人類數(shù)據(jù)上進行訓練的完全開源的大規(guī)模指令微調(diào)模型。
結(jié)果顯示,OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。
OpenAssistant數(shù)據(jù)格式
基本數(shù)據(jù)結(jié)構(gòu)是會話樹(CT),每個Node表示一個對話中的信息。一個 CT 的根節(jié)點代表一個初始提示,由提示者給出。為了避免混淆,研究人員把對話的角色稱為提示者和助手。
下面是一個例子:
OpenAssistant數(shù)據(jù)收集
這些數(shù)據(jù)是通過一個web-app應(yīng)用程序界面(https://open-assistant.io/)收集的,該界面通過將整個流程分為五個獨立的步驟來完成:提示、標記提示、作為提示者或助手添加回復信息、標記回復、以及對助手的回復進行排名。
單步收集
為減少用戶流失造成的數(shù)據(jù)丟失,數(shù)據(jù)收集分為多個單元,并確保每個工作單元都被捕獲以供利用。用戶可以從一系列任務(wù)選擇或隨機采樣(根據(jù)當前要求加權(quán))。任務(wù)類型包括創(chuàng)建提示,以助手身份回復、以提示者身份回復、標記提示或回復以及提示者或助理答復進行排序。
創(chuàng)建提示
每個新的會話樹需要用戶指定初始化Prompt,這里類似彩票系統(tǒng)一樣,是從固定數(shù)量的Prompt中進行選擇。
以助手身份回復
以提示者身份回復
作為提示者回復的任務(wù)并不嚴格質(zhì)量要求,但強調(diào)多樣性的重要性,以適應(yīng)各種用例。提示回復的例子可能包括要求澄清、修改原文意圖,提出后續(xù)問題,或完全改變談話方向。
標記提示或回復
提示者或助理答復進行排序
OpenAssistant數(shù)據(jù)語言分布
主要以英語和西班牙語為主:
OpenAssistant信息分布
實驗驗證
指令微調(diào)
為了評估和證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,研究者專注于基于 Pythia 和 LLaMA 的微調(diào)語言模型。其中 Pythia 是一個具有寬松開源許可的 SOTA 語言模型,而 LLaMA 是一個具有定制非商業(yè)許可的強大語言模型。
對此,研究者發(fā)布了一系列微調(diào)語言模型,包括指令微調(diào)的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,這是他們迄今最大的模型。研究者將分析重心放在了具有開源屬性的 Pythia-12B 模型上,使得它可以被廣泛訪問并適用于各種應(yīng)用程序。
為了評估 Pythia-12B 的性能,研究者展開了一項用戶偏好研究,將其輸出與 OpenAI 的 gpt-3.5-turbo 模型進行比較。目前已經(jīng)有 7,042 項比較,結(jié)果發(fā)現(xiàn) Pythia-12B 對 gpt-3.5-turbo 的勝率為 48.3%,表明經(jīng)過微調(diào)的 Pythia 模型是非常具有競爭力的大語言模型。
偏好建模
除了指令微調(diào)模型之外,研究者還發(fā)布了基于 Pythia-1.4B 和 Pythia-12B 的經(jīng)過訓練的獎勵模型。利用在真實世界數(shù)據(jù)上訓練的獎勵模型可以為用戶輸入帶來更準確和自適應(yīng)的響應(yīng),這對于開發(fā)高效且對用戶友好的 AI 助手至關(guān)重要。
研究者還計劃發(fā)布經(jīng)過人類反饋強化學習(RLHF)訓練的 LLaMA-30B,這種方法可以顯著提升模型性能和適應(yīng)性。不過,基于 RLHF 方法的模型開發(fā)與訓練正在進行中,需要進一步努力確保成功地整合進來。
有毒信息
研究者采取基于 Detoxify 的毒性檢測方法來獲得六個不同類別的自動評級,分別是有毒、色情、威脅、侮辱、攻擊性、露骨言論。使用自動毒性評級,研究者系統(tǒng)地評估了人工指定毒性標簽(如仇恨言論、不恰當和色情)的級別。并且基于 115,153 條消息樣本,他們計算了自動與人工注釋毒性標簽之間的相關(guān)性,如下圖 5 所示。
OpenAssistant訓練配置
數(shù)據(jù)格式
監(jiān)督微調(diào)SFT
mask掉Prompts的token,只預測助手回復的token
獎勵模型RM
使用一個線性層替換掉語言模型的head得到一個score,這個score作為會話最好一個回復的score,損失函數(shù)如下:
強化學習PPO
使用https://github.com/CarperAI/trlx訓練PPO算法
更多訓練細節(jié)
https://github.com/LAION-AI/Open-Assistant/tree/main/model/model_training
局限性
主觀偏見和文化偏見
數(shù)據(jù)標注人員來自不同的背景,有各種各樣的興趣,但在性別和年齡有偏向性。具體來說,89.1%的標注人員是平均在26歲的男性。這可能會在數(shù)據(jù)集中無意引入偏見,因為事實上必然會反映標注人員的價值觀、觀點和興趣。
貢獻分配不均
數(shù)據(jù)集受益于大量用戶,但他們的參與程度差異很大。參與度越高的用戶貢獻的標注數(shù)量越多,這導致他們的價值觀和興趣代表性在數(shù)據(jù)集中越高。
可能的不安全內(nèi)容
盡管采取了一些檢測和消除數(shù)據(jù)集中的有害內(nèi)容,但并不能保證系統(tǒng)的萬無一失,因此主張在學術(shù)研究中使用LLM,并敦促研究人員在將這些模型應(yīng)用于下游任務(wù)時,要仔細考慮安全性和偏差影響。
OpenAssistant與GPT3.5對比
我們來看幾組 OpenAssistant 與 GPT-3.5 的生成結(jié)果比較。比如“單詞 barn 的詞源 / 起源是什么?”可以看到,OpenAssistant 解釋地更詳細、全面。
再比如輸入“你現(xiàn)在是一個普通的人類。請介紹一下你自己并告訴我一些你的日常生活?!監(jiān)penAssistant 代入了普通人類的角色,GPT-3.5 顯然沒有,還是以 AI 語言模型自居。
最后輸入“如何創(chuàng)建一個成功的 YouTube 頻道,從開發(fā)一個利基市場到創(chuàng)建內(nèi)容以建立一個社區(qū)并貨幣化頻道?”O(jiān)penAssistant 的回答相對而言更有條理性。文章來源:http://www.zghlxwxcb.cn/news/detail-555215.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-555215.html
到了這里,關(guān)于ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!