国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來

這篇具有很好參考價值的文章主要介紹了ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

  • 論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

  • 項目地址:https://github.com/LAION-AI/Open-Assistant

  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/OpenAssistant/oasst1

  • 體驗地址:https://open-assistant.io/chat

  • 觀看公告視頻:https://youtu.be/ddG2fM9i4Kk

OpenAssistant介紹

最近火爆的ChatGPT使用如下圖三個步驟訓練得到,分別是:1)使用人類標注的數(shù)據(jù)訓練SFT模型;2)對模型輸出進行排序訓練RM模型;3)使用RM模型微調(diào)SFT模型;

下圖論文來自《Training language models to follow instructions
with human feedback》

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

通過監(jiān)督微調(diào)(SFT)、人類反饋強化學習 (RLHF)大大減少了有效利用LLMs能力所需的技能和領(lǐng)域知識,然而,RLHF需要依賴高質(zhì)量的人工反饋數(shù)據(jù),這種數(shù)據(jù)的創(chuàng)建成本很高,而且往往是專有的。為了讓大型語言模型民主化,LAION AI 等機構(gòu)的研究者收集了大量基于文本的輸入和反饋,創(chuàng)建了一個專門訓練語言模型或其他 AI 應(yīng)用的多樣化和獨特數(shù)據(jù)集 OpenAssistant Conversations。

該數(shù)據(jù)集是一個由13500 名志愿者人工生成、人工注釋的助理式對話語料庫,覆蓋了廣泛的主題和寫作風格,由 161443 條消息組成,分布在 66497 個會話樹中,使用 35 種不同的語言,有461292個質(zhì)量評級標注。對于任何希望創(chuàng)建 SOTA 指令模型的開發(fā)者而言,它都是一個非常寶貴的工具。并且任何人都可以免費訪問整個數(shù)據(jù)集。

此外,為了證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,該研究還提出了一個基于聊天的助手 OpenAssistant,它基于Pythia和LLaMA微調(diào)而來,其可以理解任務(wù)、與第三方系統(tǒng)交互、動態(tài)檢索信息??梢哉f這是第一個在人類數(shù)據(jù)上進行訓練的完全開源的大規(guī)模指令微調(diào)模型。

結(jié)果顯示,OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。

OpenAssistant數(shù)據(jù)格式

基本數(shù)據(jù)結(jié)構(gòu)是會話樹(CT),每個Node表示一個對話中的信息。一個 CT 的根節(jié)點代表一個初始提示,由提示者給出。為了避免混淆,研究人員把對話的角色稱為提示者和助手。

下面是一個例子:

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant數(shù)據(jù)收集

這些數(shù)據(jù)是通過一個web-app應(yīng)用程序界面(https://open-assistant.io/)收集的,該界面通過將整個流程分為五個獨立的步驟來完成:提示、標記提示、作為提示者或助手添加回復信息、標記回復、以及對助手的回復進行排名。

單步收集

為減少用戶流失造成的數(shù)據(jù)丟失,數(shù)據(jù)收集分為多個單元,并確保每個工作單元都被捕獲以供利用。用戶可以從一系列任務(wù)選擇或隨機采樣(根據(jù)當前要求加權(quán))。任務(wù)類型包括創(chuàng)建提示助手身份回復、以提示者身份回復標記提示或回復以及提示者或助理答復進行排序。

創(chuàng)建提示

每個新的會話樹需要用戶指定初始化Prompt,這里類似彩票系統(tǒng)一樣,是從固定數(shù)量的Prompt中進行選擇。

助手身份回復

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

以提示者身份回復

作為提示者回復的任務(wù)并不嚴格質(zhì)量要求,但強調(diào)多樣性的重要性,以適應(yīng)各種用例。提示回復的例子可能包括要求澄清、修改原文意圖,提出后續(xù)問題,或完全改變談話方向。

標記提示或回復

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

提示者或助理答復進行排序

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant數(shù)據(jù)語言分布

主要以英語和西班牙語為主:

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant信息分布

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

實驗驗證

指令微調(diào)

為了評估和證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,研究者專注于基于 Pythia 和 LLaMA 的微調(diào)語言模型。其中 Pythia 是一個具有寬松開源許可的 SOTA 語言模型,而 LLaMA 是一個具有定制非商業(yè)許可的強大語言模型。

對此,研究者發(fā)布了一系列微調(diào)語言模型,包括指令微調(diào)的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,這是他們迄今最大的模型。研究者將分析重心放在了具有開源屬性的 Pythia-12B 模型上,使得它可以被廣泛訪問并適用于各種應(yīng)用程序。

為了評估 Pythia-12B 的性能,研究者展開了一項用戶偏好研究,將其輸出與 OpenAI 的 gpt-3.5-turbo 模型進行比較。目前已經(jīng)有 7,042 項比較,結(jié)果發(fā)現(xiàn) Pythia-12B 對 gpt-3.5-turbo 的勝率為 48.3%,表明經(jīng)過微調(diào)的 Pythia 模型是非常具有競爭力的大語言模型。

偏好建模

除了指令微調(diào)模型之外,研究者還發(fā)布了基于 Pythia-1.4B 和 Pythia-12B 的經(jīng)過訓練的獎勵模型。利用在真實世界數(shù)據(jù)上訓練的獎勵模型可以為用戶輸入帶來更準確和自適應(yīng)的響應(yīng),這對于開發(fā)高效且對用戶友好的 AI 助手至關(guān)重要。

研究者還計劃發(fā)布經(jīng)過人類反饋強化學習(RLHF)訓練的 LLaMA-30B,這種方法可以顯著提升模型性能和適應(yīng)性。不過,基于 RLHF 方法的模型開發(fā)與訓練正在進行中,需要進一步努力確保成功地整合進來。

有毒信息

研究者采取基于 Detoxify 的毒性檢測方法來獲得六個不同類別的自動評級,分別是有毒、色情、威脅、侮辱、攻擊性、露骨言論。使用自動毒性評級,研究者系統(tǒng)地評估了人工指定毒性標簽(如仇恨言論、不恰當和色情)的級別。并且基于 115,153 條消息樣本,他們計算了自動與人工注釋毒性標簽之間的相關(guān)性,如下圖 5 所示。

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

OpenAssistant訓練配置

數(shù)據(jù)格式

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

監(jiān)督微調(diào)SFT

mask掉Prompts的token,只預測助手回復的token

獎勵模型RM

使用一個線性層替換掉語言模型的head得到一個score,這個score作為會話最好一個回復的score,損失函數(shù)如下:

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

強化學習PPO

使用https://github.com/CarperAI/trlx訓練PPO算法

更多訓練細節(jié)

https://github.com/LAION-AI/Open-Assistant/tree/main/model/model_training

局限性

主觀偏見和文化偏見

數(shù)據(jù)標注人員來自不同的背景,有各種各樣的興趣,但在性別和年齡有偏向性。具體來說,89.1%的標注人員是平均在26歲的男性。這可能會在數(shù)據(jù)集中無意引入偏見,因為事實上必然會反映標注人員的價值觀、觀點和興趣。

貢獻分配不均

數(shù)據(jù)集受益于大量用戶,但他們的參與程度差異很大。參與度越高的用戶貢獻的標注數(shù)量越多,這導致他們的價值觀和興趣代表性在數(shù)據(jù)集中越高。

可能的不安全內(nèi)容

盡管采取了一些檢測和消除數(shù)據(jù)集中的有害內(nèi)容,但并不能保證系統(tǒng)的萬無一失,因此主張在學術(shù)研究中使用LLM,并敦促研究人員在將這些模型應(yīng)用于下游任務(wù)時,要仔細考慮安全性和偏差影響。

OpenAssistant與GPT3.5對比

我們來看幾組 OpenAssistant 與 GPT-3.5 的生成結(jié)果比較。比如“單詞 barn 的詞源 / 起源是什么?”可以看到,OpenAssistant 解釋地更詳細、全面。

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

再比如輸入“你現(xiàn)在是一個普通的人類。請介紹一下你自己并告訴我一些你的日常生活?!監(jiān)penAssistant 代入了普通人類的角色,GPT-3.5 顯然沒有,還是以 AI 語言模型自居。

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能

最后輸入“如何創(chuàng)建一個成功的 YouTube 頻道,從開發(fā)一個利基市場到創(chuàng)建內(nèi)容以建立一個社區(qū)并貨幣化頻道?”O(jiān)penAssistant 的回答相對而言更有條理性。

ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來,chatgpt,llama,人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-555215.html

到了這里,關(guān)于ChatGPT全球最大開源平替OpenAssistant:基于Pythia和LLaMA微調(diào)而來的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • ChatGPT的開源平替,終于來了!

    ChatGPT的開源平替,終于來了!

    最近這段時間,一個號稱全球最大ChatGPT開源平替項目Open Assistant引起了大家的注意。 這不最近還登上了GitHub的Trending熱榜。 https://github.com/LAION-AI/Open-Assistant 根據(jù)官方的介紹,Open Assistant也是一個對話式的大型語言模型項目,可以理解任務(wù),并且可以與第三方系統(tǒng)交互,并動態(tài)

    2023年04月24日
    瀏覽(20)
  • ChatGPT 火了,一大批開源平替也來了

    ChatGPT 火了,一大批開源平替也來了

    ChatGPT 憑一己之力讓全球為 AI 沸騰,引發(fā)了科技巨頭之間的聊天機器人軍備競賽。 眾所周知,ChatGPT 的背后技術(shù)是 GPT(Generative Pre-trained Transformer)模型。GPT 是一種基于 Transformer 模型的自然語言處理模型,由 OpenAI 公司開發(fā)。它可以通過學習大量的自然語言數(shù)據(jù)來生成自然流暢

    2023年04月20日
    瀏覽(22)
  • 開發(fā)者笑瘋了! LLaMa驚天泄露引爆ChatGPT平替狂潮,開源LLM領(lǐng)域變天

    開發(fā)者笑瘋了! LLaMa驚天泄露引爆ChatGPT平替狂潮,開源LLM領(lǐng)域變天

    來源: 新智源? 微信號:AI-era Meta的LLaMA模型開源,讓文本大模型迎來了Stable Diffustion時刻。誰都沒想 誰能想到,一次意外的LLaMA泄漏,竟點燃了開源LLM領(lǐng)域最大的創(chuàng)新火花。 一系列表現(xiàn)出色的ChatGPT開源替代品——「羊駝家族」,隨后眼花繚亂地登場。 開源和基于 API 的分發(fā)之

    2024年02月10日
    瀏覽(21)
  • 推薦 ChatGpt 平替介紹文章

    chenking2020/FindTheChatGPTer: 匯總那些ChatGPT的平替?zhèn)?(github.com) Alpaca https://github.com/tatsu-lab/stanford_alpaca Alpaca DEMO: https://alpaca-ai-custom6.ngrok.io OpenChatKit https://github.com/togethercomputer/OpenChatKit ChatGLM https://github.com/THUDM/ChatGLM-6B ChatYuan https://github.com/clue-ai/ChatYuan Colossal AI https://github.com/hpca

    2024年02月03日
    瀏覽(18)
  • 9個已開源的GPT4平替分享(附開源代碼+論文)

    9個已開源的GPT4平替分享(附開源代碼+論文)

    資料整理自網(wǎng)絡(luò),有誤歡迎指正 對于想要研究大模型的同學來說,目前ChatGPT無疑是最好的學習對象,但等它開源估計是不太可能了,所以學姐今天整理了一些開源的類GPT模型,幫助大家更好的理解大模型背后的機理。 PS:有的功能還不錯,也可以上手玩耍玩耍。 開源鏈接都

    2024年02月09日
    瀏覽(24)
  • ChatGPT 的平替 Claude 使用指南

    ChatGPT 的平替 Claude 使用指南

    Claude的獨立體驗版本姍姍來遲,經(jīng)過近半個月的等待后,收到了體驗郵件,不過之前早已體驗過poe和slack的集成版,響應(yīng)速度上要比ChatGPT快很多。 目前提供的Model有: \\\"claude-v1\\\":我們最大的型號,適用于各種更復雜的任務(wù)。claude-v1使用此型號名稱將在一段時間的早期訪問評估

    2023年04月15日
    瀏覽(16)
  • 真正的ChatGPT平替產(chǎn)品:Claude

    真正的ChatGPT平替產(chǎn)品:Claude

    ChatGPT 已經(jīng)流行了很長的時間了,但是 ChatGPT 由于種種的限制,我們無法用上,也有很多的平替產(chǎn)品,但是這些平替產(chǎn)品也有很多的問題。 現(xiàn)在 Claude 出來了,沒有任何的限制。 Claude 不用魔法,注冊簡單。為什么 Claude 這么厲害,我們來問問他和 chatgpt 的區(qū)別。 我和 ChatGP

    2023年04月19日
    瀏覽(22)
  • ChatGPT平替- ChatGLM多用戶并行訪問部署

    ????????ChatGLM對話模型基本環(huán)境配置和部署請參考上一篇博文《ChatGPT平替-ChatGLM環(huán)境搭建與部署運行》,地址為“https://blog.csdn.net/suiyingy/article/details/130370190”。但是,默認部署程序僅支持單用戶訪問,多用戶則需要排隊訪問。測試過相關(guān)的幾個Github多用戶工程,但是其中

    2024年02月08日
    瀏覽(15)
  • 全球最大的BT種子站RARBG突然關(guān)閉

    全球最大的BT種子站RARBG突然關(guān)閉

    我是盧松松,點點上面的頭像,歡迎關(guān)注我哦! 全球知名的也最大的BT種子網(wǎng)站RARBG突然關(guān)閉, 關(guān)站的原因竟然不是版權(quán),而是疫情,戰(zhàn)爭和電價。 也許很多人不知道RARBG是啥,就這么說吧: 國內(nèi)大部分字幕組和資源網(wǎng)站基本都從這個網(wǎng)站搬運資源 。RARBG應(yīng)該是國內(nèi)BT資源糧

    2024年02月07日
    瀏覽(26)
  • 借助國內(nèi)ChatGPT平替+MindShow,飛速制作PPT

    借助國內(nèi)ChatGPT平替+MindShow,飛速制作PPT

    借助國內(nèi)ChatGPT平替+markmap/Xmind飛速生成思維導圖 借助國內(nèi)ChatGPT平替+剪映/百度AIGC平臺快速制作短視頻 利用ChatGPT編寫Excel公式,對比訊飛星火與ChatGPT對Excel公式的回答 隨著人工智能技術(shù)的不斷發(fā)展,越來越多的企業(yè)和個人開始利用自然語言處理技術(shù)來提高工作效率。其中,最

    2024年02月04日
    瀏覽(64)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包