ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來

這篇具有很好參考價值的文章主要介紹了ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

論文地址：https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
項目地址：https://github.com/LAION-AI/Open-Assistant
數(shù)據(jù)集地址：https://huggingface.co/datasets/OpenAssistant/oasst1
體驗地址：https://open-assistant.io/chat
觀看公告視頻：https://youtu.be/ddG2fM9i4Kk

OpenAssistant介紹

最近火爆的ChatGPT使用如下圖三個步驟訓練得到，分別是：1）使用人類標注的數(shù)據(jù)訓練SFT模型；2）對模型輸出進行排序訓練RM模型；3）使用RM模型微調(diào)SFT模型；

下圖論文來自《Training language models to follow instructions
with human feedback》

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

通過監(jiān)督微調(diào)（SFT）、人類反饋強化學習（RLHF）大大減少了有效利用LLMs能力所需的技能和領(lǐng)域知識，然而，RLHF需要依賴高質(zhì)量的人工反饋數(shù)據(jù)，這種數(shù)據(jù)的創(chuàng)建成本很高，而且往往是專有的。為了讓大型語言模型民主化，LAION AI 等機構(gòu)的研究者收集了大量基于文本的輸入和反饋，創(chuàng)建了一個專門訓練語言模型或其他 AI 應(yīng)用的多樣化和獨特數(shù)據(jù)集 OpenAssistant Conversations。

該數(shù)據(jù)集是一個由13500 名志愿者人工生成、人工注釋的助理式對話語料庫，覆蓋了廣泛的主題和寫作風格，由 161443 條消息組成，分布在 66497 個會話樹中，使用 35 種不同的語言，有461292個質(zhì)量評級標注。對于任何希望創(chuàng)建 SOTA 指令模型的開發(fā)者而言，它都是一個非常寶貴的工具。并且任何人都可以免費訪問整個數(shù)據(jù)集。

此外，為了證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性，該研究還提出了一個基于聊天的助手 OpenAssistant，它基于Pythia和LLaMA微調(diào)而來，其可以理解任務(wù)、與第三方系統(tǒng)交互、動態(tài)檢索信息?？梢哉f這是第一個在人類數(shù)據(jù)上進行訓練的完全開源的大規(guī)模指令微調(diào)模型。

結(jié)果顯示，OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。

OpenAssistant數(shù)據(jù)格式

基本數(shù)據(jù)結(jié)構(gòu)是會話樹（CT），每個Node表示一個對話中的信息。一個 CT 的根節(jié)點代表一個初始提示，由提示者給出。為了避免混淆，研究人員把對話的角色稱為提示者和助手。

下面是一個例子：

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant數(shù)據(jù)收集

這些數(shù)據(jù)是通過一個web-app應(yīng)用程序界面（https://open-assistant.io/）收集的，該界面通過將整個流程分為五個獨立的步驟來完成：提示、標記提示、作為提示者或助手添加回復信息、標記回復、以及對助手的回復進行排名。

單步收集

為減少用戶流失造成的數(shù)據(jù)丟失，數(shù)據(jù)收集分為多個單元，并確保每個工作單元都被捕獲以供利用。用戶可以從一系列任務(wù)選擇或隨機采樣（根據(jù)當前要求加權(quán)）。任務(wù)類型包括創(chuàng)建提示，以助手身份回復、以提示者身份回復、標記提示或回復以及提示者或助理答復進行排序。

創(chuàng)建提示

每個新的會話樹需要用戶指定初始化Prompt，這里類似彩票系統(tǒng)一樣，是從固定數(shù)量的Prompt中進行選擇。

以助手身份回復

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

以提示者身份回復

作為提示者回復的任務(wù)并不嚴格質(zhì)量要求，但強調(diào)多樣性的重要性，以適應(yīng)各種用例。提示回復的例子可能包括要求澄清、修改原文意圖，提出后續(xù)問題，或完全改變談話方向。

標記提示或回復

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

提示者或助理答復進行排序

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant數(shù)據(jù)語言分布

主要以英語和西班牙語為主：

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant信息分布

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

實驗驗證

指令微調(diào)

為了評估和證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性，研究者專注于基于 Pythia 和 LLaMA 的微調(diào)語言模型。其中 Pythia 是一個具有寬松開源許可的 SOTA 語言模型，而 LLaMA 是一個具有定制非商業(yè)許可的強大語言模型。

對此，研究者發(fā)布了一系列微調(diào)語言模型，包括指令微調(diào)的 Pythia-12B、LLaMA-13B 和 LLaMA-30B，這是他們迄今最大的模型。研究者將分析重心放在了具有開源屬性的 Pythia-12B 模型上，使得它可以被廣泛訪問并適用于各種應(yīng)用程序。

為了評估 Pythia-12B 的性能，研究者展開了一項用戶偏好研究，將其輸出與 OpenAI 的 gpt-3.5-turbo 模型進行比較。目前已經(jīng)有 7,042 項比較，結(jié)果發(fā)現(xiàn) Pythia-12B 對 gpt-3.5-turbo 的勝率為 48.3%，表明經(jīng)過微調(diào)的 Pythia 模型是非常具有競爭力的大語言模型。

偏好建模

除了指令微調(diào)模型之外，研究者還發(fā)布了基于 Pythia-1.4B 和 Pythia-12B 的經(jīng)過訓練的獎勵模型。利用在真實世界數(shù)據(jù)上訓練的獎勵模型可以為用戶輸入帶來更準確和自適應(yīng)的響應(yīng)，這對于開發(fā)高效且對用戶友好的 AI 助手至關(guān)重要。

研究者還計劃發(fā)布經(jīng)過人類反饋強化學習（RLHF）訓練的 LLaMA-30B，這種方法可以顯著提升模型性能和適應(yīng)性。不過，基于 RLHF 方法的模型開發(fā)與訓練正在進行中，需要進一步努力確保成功地整合進來。

有毒信息

研究者采取基于 Detoxify 的毒性檢測方法來獲得六個不同類別的自動評級，分別是有毒、色情、威脅、侮辱、攻擊性、露骨言論。使用自動毒性評級，研究者系統(tǒng)地評估了人工指定毒性標簽（如仇恨言論、不恰當和色情）的級別。并且基于 115,153 條消息樣本，他們計算了自動與人工注釋毒性標簽之間的相關(guān)性，如下圖 5 所示。

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant訓練配置

數(shù)據(jù)格式

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

監(jiān)督微調(diào)SFT

mask掉Prompts的token，只預測助手回復的token

獎勵模型RM

使用一個線性層替換掉語言模型的head得到一個score，這個score作為會話最好一個回復的score，損失函數(shù)如下：

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

強化學習PPO

使用https://github.com/CarperAI/trlx訓練PPO算法

更多訓練細節(jié)

https://github.com/LAION-AI/Open-Assistant/tree/main/model/model_training

局限性

主觀偏見和文化偏見

數(shù)據(jù)標注人員來自不同的背景，有各種各樣的興趣，但在性別和年齡有偏向性。具體來說，89.1%的標注人員是平均在26歲的男性。這可能會在數(shù)據(jù)集中無意引入偏見，因為事實上必然會反映標注人員的價值觀、觀點和興趣。

貢獻分配不均

數(shù)據(jù)集受益于大量用戶，但他們的參與程度差異很大。參與度越高的用戶貢獻的標注數(shù)量越多，這導致他們的價值觀和興趣代表性在數(shù)據(jù)集中越高。

可能的不安全內(nèi)容

盡管采取了一些檢測和消除數(shù)據(jù)集中的有害內(nèi)容，但并不能保證系統(tǒng)的萬無一失，因此主張在學術(shù)研究中使用LLM，并敦促研究人員在將這些模型應(yīng)用于下游任務(wù)時，要仔細考慮安全性和偏差影響。

OpenAssistant與GPT3.5對比

我們來看幾組 OpenAssistant 與 GPT-3.5 的生成結(jié)果比較。比如“單詞 barn 的詞源 / 起源是什么？”可以看到，OpenAssistant 解釋地更詳細、全面。

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

再比如輸入“你現(xiàn)在是一個普通的人類。請介紹一下你自己并告訴我一些你的日常生活?！監(jiān)penAssistant 代入了普通人類的角色，GPT-3.5 顯然沒有，還是以 AI 語言模型自居。

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

最后輸入“如何創(chuàng)建一個成功的 YouTube 頻道，從開發(fā)一個利基市場到創(chuàng)建內(nèi)容以建立一個社區(qū)并貨幣化頻道？”O(jiān)penAssistant 的回答相對而言更有條理性。

ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-555215.html

到了這里，關(guān)于ChatGPT全球最大開源平替OpenAssistant：基于Pythia和LLaMA微調(diào)而來的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！