尋找那些ChatGPT/GPT4開(kāi)源“平替”們。
ChatGPT爆火出圈,國(guó)內(nèi)很多高校、研究機(jī)構(gòu)和企業(yè)都發(fā)出類似ChatGPT的發(fā)布計(jì)劃。ChatGPT沒(méi)有開(kāi)源,復(fù)現(xiàn)難度極大,即使到現(xiàn)在GPT3的完全能力也沒(méi)有任何一個(gè)單位或者企業(yè)進(jìn)行了復(fù)現(xiàn)。剛剛,OpenAI又官宣發(fā)布了圖文多模態(tài)的GPT4模型,能力相對(duì)ChatGPT又是大幅提升,似乎聞到了以通用人工智能主導(dǎo)的第四次工業(yè)革命的味道。
無(wú)論是國(guó)外還是國(guó)內(nèi),目前距離OpenAI的差距越來(lái)越大,大家都在緊鑼密鼓的追趕,以致于在這場(chǎng)技術(shù)革新中處于一定的優(yōu)勢(shì)地位,目前很多大型企業(yè)的研發(fā)基本上都是走閉源路線,ChatGPT和GPT4官方公布的細(xì)節(jié)很少,也不像之前發(fā)個(gè)幾十頁(yè)的論文介紹,OpenAI的商業(yè)化時(shí)代已經(jīng)到來(lái)。當(dāng)然,也有一些組織或者個(gè)人在開(kāi)源平替上進(jìn)行了探索,本文章匯總?cè)缦拢?/p>
ChatYuan
ChatYuan(元語(yǔ)AI)是由元語(yǔ)智能開(kāi)發(fā)團(tuán)隊(duì)開(kāi)發(fā)和發(fā)布的,自稱第一個(gè)國(guó)內(nèi)最早的一個(gè)功能型對(duì)話大模型,可以寫文章、寫作業(yè)、寫詩(shī)歌、做中英文間的翻譯;一些法律等特定領(lǐng)域問(wèn)題也可以提供相關(guān)信息。該模型目前只支持中文。
從披露的技術(shù)細(xì)節(jié)看,底層采用7億參數(shù)規(guī)模的T5模型,并基于PromptClue進(jìn)行了監(jiān)督微調(diào)形成了ChatYuan。該模型基本上是ChatGPT技術(shù)路線的三步的第一步,沒(méi)有實(shí)現(xiàn)獎(jiǎng)勵(lì)模型訓(xùn)練和PPO強(qiáng)化學(xué)習(xí)訓(xùn)練。
GitHub鏈接:
https://github.com/clue-ai/ChatYuan
Colossal AI
最近,ColossalAI開(kāi)源了他們的ChatGPT實(shí)現(xiàn)。分享了他們的三步策略,完整實(shí)現(xiàn)了ChatGPT核心的技術(shù)路線。
本人基于該項(xiàng)目,更加明確了三步策略,并進(jìn)行了分享:
-
第一階段(stage1_sft.py):SFT監(jiān)督微調(diào)階段,該開(kāi)源項(xiàng)目沒(méi)有實(shí)現(xiàn),這個(gè)比較簡(jiǎn)單,因?yàn)镃olossalAI無(wú)縫支持Huggingface,本人直接用Huggingface的Trainer函數(shù)幾行代碼輕松實(shí)現(xiàn),在這里我用了一個(gè)gpt2模型,從其實(shí)現(xiàn)上看,其支持GPT2、OPT和BLOOM模型;
-
第二階段(stage2_rm.py):獎(jiǎng)勵(lì)模型(RM)訓(xùn)練階段,即項(xiàng)目Examples里train_reward_model.py部分;
-
第三階段(stage3_ppo.py):強(qiáng)化學(xué)習(xí)(RLHF)階段,即項(xiàng)目train_prompts.py。
三個(gè)文件的執(zhí)行需要放在ColossalAI項(xiàng)目中,其中代碼中的cores即原始工程中的chatgpt,cores.nn在原始工程中變成了chatgpt.models。
GitHub鏈接:
https://github.com/hpcaitech/ColossalAI
ChatGLM
ChatGLM是清華技術(shù)成果轉(zhuǎn)化的公司智譜AI開(kāi)源的GLM系列的對(duì)話模型,支持中英兩個(gè)語(yǔ)種,目前開(kāi)源了其62億參數(shù)量的模型。其繼承了GLM之前的優(yōu)勢(shì),在模型架構(gòu)上進(jìn)行了優(yōu)化,從而使得部署和應(yīng)用門檻變低,實(shí)現(xiàn)大模型在消費(fèi)級(jí)顯卡上的推理應(yīng)用。
從技術(shù)路線上看,其實(shí)現(xiàn)了ChatGPT強(qiáng)化學(xué)習(xí)人類對(duì)齊策略,使得生成效果更佳貼近人類價(jià)值,其目前能力域主要包括自我認(rèn)知、提綱寫作、文案寫作、郵件寫作助手、信息抽取、角色扮演、評(píng)論比較、旅游建議等,目前其已經(jīng)開(kāi)發(fā)了正在內(nèi)測(cè)的1300億的超大模型,算是目前開(kāi)源平替里面參數(shù)規(guī)模較大的對(duì)話大模型。
詳細(xì)技術(shù)可以參考其GitHub:
https://github.com/THUDM/ChatGLM-6B
LLaMa
LLaMA是由Facebook 母公司Meta發(fā)布的全新人工智能大型語(yǔ)言模型,在生成文本、對(duì)話、總結(jié)書面材料、證明數(shù)學(xué)定理或預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等任務(wù)上方面表現(xiàn)良好。LLaMA模型支持20種語(yǔ)言,包括拉丁語(yǔ)和西里爾字母語(yǔ)言,目前看原始模型并不支持中文。
LLaMA目前比較火的兩個(gè)頂流開(kāi)源項(xiàng)目是ChatLLaMA和stanford_alpaca。
ChatLLaMA是由Nebuly+AI推出的基于人類反饋強(qiáng)化學(xué)習(xí)的LLaMA+AI聊天機(jī)器人的開(kāi)源實(shí)現(xiàn),它的技術(shù)路線類似 ChatGPT,該項(xiàng)目上線剛剛 2 天,狂攬 5.2K 星。
GitHub鏈接:
https://github.com/nebuly-ai/nebullvm/tree/main/apps/accelerate/chatllama
ChatLLaMA 訓(xùn)練過(guò)程算法實(shí)現(xiàn)主打比 ChatGPT 訓(xùn)練更快、更便宜,據(jù)說(shuō)能快近15倍,主要特色有:
-
完整的開(kāi)源實(shí)現(xiàn),允許用戶基于預(yù)訓(xùn)練的 LLaMA 模型構(gòu)建 ChatGPT 風(fēng)格的服務(wù);
-
LLaMA 架構(gòu)更小,使得訓(xùn)練過(guò)程和推理速度更快,成本更低;
-
內(nèi)置了對(duì) DeepSpeed ZERO 的支持,以加速微調(diào)過(guò)程;
-
支持各種尺寸的 LLaMA 模型架構(gòu),用戶可以根據(jù)自身偏好對(duì)模型進(jìn)行微調(diào)。
另外一個(gè)比較火的是最近剛發(fā)布的alpaca(羊駝模型),是由斯坦?;?Meta 的 LLaMA 7B 模型微調(diào)出一個(gè)新模型,其基本原理是讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令樣本,以此來(lái)微調(diào)LLaMA。該項(xiàng)目已將訓(xùn)練數(shù)據(jù)、生成訓(xùn)練數(shù)據(jù)的代碼和超參數(shù)開(kāi)源,模型文件尚未開(kāi)源,以一天多達(dá)到5.6K星的關(guān)注度,估計(jì)很快會(huì)開(kāi)源其模型文件供大家使用。
GitHub鏈接:
https://github.com/tatsu-lab/stanford_alpaca
同時(shí)公布了一個(gè)DEMO地址:
https://alpaca-ai-custom6.ngrok.io
OpenChatKitk
OpenChatKit由前OpenAI研究員所在的Together團(tuán)隊(duì),以及LAION、Ontocord.ai團(tuán)隊(duì)共同打造。OpenChatKit包含200億個(gè)參數(shù),用GPT-3的開(kāi)源版本GPT-NoX-20B進(jìn)行微調(diào)。同時(shí),不同ChatGPT的強(qiáng)化學(xué)習(xí),OpenChatKit采用一個(gè)60億參數(shù)的審核模型,對(duì)不合適或者是有害的信息進(jìn)行過(guò)濾,確保生成內(nèi)容的安全和質(zhì)量。
GitHub鏈接:
https://github.com/togethercomputer/OpenChatKit
BELLE
基于 Stanford Alpaca ,實(shí)現(xiàn)基于Bloom、LLama的監(jiān)督微調(diào)。Stanford Alpaca 的種子任務(wù)都是英語(yǔ),收集的數(shù)據(jù)也都是英文,該開(kāi)源項(xiàng)目是促進(jìn)中文對(duì)話大模型開(kāi)源社區(qū)的發(fā)展,針對(duì)中文做了優(yōu)化,模型調(diào)優(yōu)僅使用由ChatGPT生產(chǎn)的數(shù)據(jù)(不包含任何其他數(shù)據(jù))。項(xiàng)目包含以下內(nèi)容:
-
175個(gè)中文種子任務(wù);
-
生成數(shù)據(jù)的代碼;
-
10M生成的數(shù)據(jù),目前開(kāi)源了1.5M、0.25M數(shù)學(xué)指令數(shù)據(jù)集和0.8M多輪任務(wù)對(duì)話數(shù)據(jù)集;
-
基于BLOOMZ-7B1-mt、LLama-7B優(yōu)化后的模型。
GitHub鏈接:
https://github.com/LianjiaTech/BELLE
PaLM-rlhf-pytorch
其號(hào)稱首個(gè)開(kāi)源ChatGPT平替項(xiàng)目,其基本思路是基于谷歌語(yǔ)言大模型PaLM架構(gòu),以及使用從人類反饋中強(qiáng)化學(xué)習(xí)的方法(RLHF)。PaLM是谷歌在今年4月發(fā)布的5400億參數(shù)全能大模型,基于Pathways系統(tǒng)訓(xùn)練。其可以完成寫代碼、聊天、語(yǔ)言理解等任務(wù),并且在大多數(shù)任務(wù)上具有強(qiáng)大的少樣本學(xué)習(xí)性能。同時(shí)采用了ChatGPT一樣的強(qiáng)化學(xué)習(xí)機(jī)制,能讓AI的回答更加符合情景要求,降低模型毒性。
GitHub鏈接:
https://github.com/lucidrains/PaLM-rlhf-pytorch
alpaca-lora
alpaca-lora是斯坦福大學(xué)的另一個(gè)巨作,其使用LoRA(low-rank adaptation)技術(shù)復(fù)現(xiàn)了Alpaca的結(jié)果,用了一個(gè)更加低成本的方法,只在一塊RTX 4090顯卡上訓(xùn)練5個(gè)小時(shí)得到了一個(gè)Alpaca水平相當(dāng)?shù)哪P?。而且,該模型可以在?shù)莓派上運(yùn)行。在該項(xiàng)目中,其使用了Hugging Face的PEFT來(lái)實(shí)現(xiàn)廉價(jià)高效的微調(diào)。PEFT 是一個(gè)庫(kù)(LoRA 是其支持的技術(shù)之一),可以讓你使用各種基于 Transformer的語(yǔ)言模型并使用LoRA對(duì)其進(jìn)行微調(diào),從而使得在一般的硬件上廉價(jià)而有效地微調(diào)模型。
GitHub鏈接:
https://github.com/tloen/alpaca-lora
盡管 Alpaca和alpaca-lora取得了較大的提升,但其種子任務(wù)都是英語(yǔ),缺乏對(duì)中文的支持。一方面除了以上提到Belle收集到了大量的中文語(yǔ)料,另一方面基于alpaca-lora等前人工作,來(lái)自華中師范大學(xué)等機(jī)構(gòu)的三位個(gè)人開(kāi)發(fā)者開(kāi)源的中文語(yǔ)言模型駱駝 (Luotuo),單卡就能完成訓(xùn)練部署。目前該項(xiàng)目釋放了兩個(gè)模型 luotuo-lora-7b-0.1、luotuo-lora-7b-0.3,還有一個(gè)模型在計(jì)劃中。
GitHub鏈接:
https://github.com/LC1332/Chinese-alpaca-lora
Dolly
Dolly在Alpaca的啟發(fā)下,用Alpaca數(shù)據(jù)集,在GPT-J-6B上實(shí)現(xiàn)微調(diào),由于Dolly本身是一個(gè)模型的“克隆”,所以團(tuán)隊(duì)最終決定將其命名為“多莉”。這種克隆式在Alpaca啟發(fā)下越來(lái)越多,總結(jié)起來(lái)大致采用Alpaca開(kāi)源的數(shù)據(jù)獲取方式,在6B或者7B規(guī)模大小的舊模型上進(jìn)行指令微調(diào),獲得類似ChatGPT的的效果。這種思想很經(jīng)濟(jì),也能迅速模仿出ChatGPT的韻味來(lái),廣受歡迎,一經(jīng)推出star爆棚。
GitHub鏈接:
https://github.com/databrickslabs/dolly
Vicuna 和 Chinese-Vicuna
斯坦福學(xué)者繼推出alpaca后,聯(lián)手CMU、UC伯克利等,推出一個(gè)全新模型——130億參數(shù)的Vicuna(俗稱小羊駝、駱馬)。僅需300美元就能實(shí)現(xiàn)ChatGPT 90%的性能。Vicuna是通過(guò)在ShareGPT收集的用戶共享對(duì)話上對(duì)LLaMA進(jìn)行微調(diào)訓(xùn)練而來(lái),測(cè)試過(guò)程使用GPT-4作為評(píng)判標(biāo)準(zhǔn),結(jié)果顯示Vicuna-13B在超過(guò)90%的情況下實(shí)現(xiàn)了與ChatGPT和Bard相匹敵的能力。
UC伯克利LMSys org近期又發(fā)布了70億參數(shù)的Vicuna,不僅體積小、效率高、能力強(qiáng),而且只需兩行命令就能在M1/M2芯片的Mac上運(yùn)行,還能開(kāi)啟GPU加速!
GitHub鏈接:
https://github.com/lm-sys/FastChat/
另一個(gè)中文版的進(jìn)行了開(kāi)源Chinese-Vicuna ,GitHub地址:
https://github.com/Facico/Chinese-Vicuna
LMFLOW
ChatGPT爆火后,都在尋找通往圣殿的快捷之路,一些類ChatGPT開(kāi)始出現(xiàn),尤其是低成本效仿ChatGPT成為一個(gè)熱門途徑。LMFlow就是在這種需求場(chǎng)景下誕生的產(chǎn)物,他使得在3090這樣的普通顯卡上也能煉大模型。該項(xiàng)目由香港科技大學(xué)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)實(shí)驗(yàn)室團(tuán)隊(duì)發(fā)起,致力于建立一個(gè)全開(kāi)放的大模型研究平臺(tái),支持有限機(jī)器資源下的各類實(shí)驗(yàn),并且在平臺(tái)上提升現(xiàn)有的數(shù)據(jù)利用方式和優(yōu)化算法效率,讓平臺(tái)發(fā)展成一個(gè)比之前方法更高效的大模型訓(xùn)練系統(tǒng)。
利用該項(xiàng)目,即便是有限的計(jì)算資源,也能讓使用者針對(duì)專有領(lǐng)域支持個(gè)性化訓(xùn)練。例如LLaMA-7B,一張3090耗時(shí) 5 個(gè)小時(shí)即可完成訓(xùn)練,成本大幅降低。該項(xiàng)目還開(kāi)放了網(wǎng)頁(yè)端即刻體驗(yàn)問(wèn)答服務(wù) (lmflow.com)。LMFlow的出現(xiàn)和開(kāi)源使得普通資源可以訓(xùn)練問(wèn)答、陪伴、寫作、翻譯、專家領(lǐng)域咨詢等各種任務(wù)。目前很多研究者們正在嘗試用該項(xiàng)目訓(xùn)練650億甚至更高參數(shù)量的大模型。
GitHub鏈接:
https://github.com/OptimalScale/LMFlow
GPTrillion
該項(xiàng)目號(hào)稱開(kāi)源的最大規(guī)模模型,高達(dá)1.5萬(wàn)億,且是多模態(tài)的模型。其能力域包括自然語(yǔ)言理解、機(jī)器翻譯、智能問(wèn)答、情感分析和圖文匹配等。
其開(kāi)源地址為:
https://huggingface.co/banana-dev/GPTrillion
OpenFlamingo
OpenFlamingo是一個(gè)對(duì)標(biāo)GPT-4、支持大型多模態(tài)模型訓(xùn)練和評(píng)估的框架,由非盈利機(jī)構(gòu)LAION重磅開(kāi)源發(fā)布,其是對(duì)DeepMind的Flamingo模型的復(fù)現(xiàn)。目前開(kāi)源的是其基于LLaMA的 OpenFlamingo-9B模型。Flamingo模型在包含交錯(cuò)文本和圖像的大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,具備上下文少樣本學(xué)習(xí)能力。OpenFlamingo實(shí)現(xiàn)了原始Flamingo中提出的相同架構(gòu),在一個(gè)新的多模態(tài)C4數(shù)據(jù)集的5M樣本和LAION-2B的10M樣本上訓(xùn)練而來(lái)。
該項(xiàng)目的開(kāi)源地址:
https://github.com/mlfoundations/open_flamingo
Baize白澤
該項(xiàng)目提出了一個(gè)自動(dòng)收集 ChatGPT 對(duì)話的方法,讓 ChatGPT 自我對(duì)話,批量生成高質(zhì)量多輪對(duì)話數(shù)據(jù)集,分別收集了5萬(wàn)條左右Quora、StackOverflow和MedQA的高質(zhì)量問(wèn)答語(yǔ)料,并已經(jīng)全部開(kāi)源。同時(shí)其改進(jìn)了LLama模型,效果還不錯(cuò)。白澤同樣采用目前低成本的LoRA微調(diào)方案,獲得白澤-7B、13B 和30B三種不同尺度,以及一個(gè)醫(yī)療垂直領(lǐng)域的模型。遺憾的是中文名字起的不錯(cuò),但目前仍然不支持中文,中文的白澤模型據(jù)悉在計(jì)劃中,未來(lái)發(fā)布。
其開(kāi)源github地址:
https://github.com/project-baize/baize
Koala考拉
基于LLama的ChatGPT平替繼續(xù)發(fā)酵,UC伯克利的伯克利發(fā)布了一個(gè)可以在消費(fèi)級(jí)GPU上運(yùn)行的對(duì)話模型Koala,參數(shù)達(dá)到13B。Koala 的訓(xùn)練數(shù)據(jù)集包括如下幾個(gè)部分:ChatGPT數(shù)據(jù)和開(kāi)源數(shù)據(jù)(Open Instruction Generalist (OIG)、斯坦福 Alpaca 模型使用的數(shù)據(jù)集、Anthropic HH、OpenAI WebGPT、OpenAI Summarization)。Koala模型在EasyLM中使用JAX/Flax實(shí)現(xiàn),用了8 個(gè)A100 GPU,完成2輪迭代需要6個(gè)小時(shí)。評(píng)測(cè)效果優(yōu)于Alpaca,達(dá)到ChatGPT 50%的性能。
開(kāi)源地址:
https://github.com/young-geng/EasyLM
StackLLaMA
隨著斯坦福Alpaca的出現(xiàn),一大堆基于LLama的羊駝家族和擴(kuò)展動(dòng)物家族開(kāi)始出現(xiàn),終于Hugging Face研究人員近期發(fā)布了一篇博客StackLLaMA:用RLHF訓(xùn)練LLaMA的實(shí)踐指南。同時(shí)也發(fā)布了一個(gè)70億參數(shù)的模型——StackLLaMA。這是一個(gè)通過(guò)人類反饋強(qiáng)化學(xué)習(xí)在LLaMA-7B微調(diào)而來(lái)的模型。
詳細(xì)見(jiàn)其博客地址:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-415242.html
https://huggingface.co/blog/stackllama文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-415242.html
到了這里,關(guān)于ChatGPT/GPT4開(kāi)源“平替”匯總的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!