前言
OpenAI發(fā)布的ChatGPT火爆全球以來(lái),全球互聯(lián)網(wǎng)大廠陸續(xù)跟進(jìn),紛紛宣布了自家的Chat產(chǎn)品,如Google的Bard,百度的文心一言,阿里的通義千問(wèn)等等。
這些Chat產(chǎn)品背后都是依賴(lài)的大語(yǔ)言模型(Large Language Model)。
如果是做一個(gè)垂直領(lǐng)域的Chat產(chǎn)品,有2種方案:
- 直接使用商業(yè)化產(chǎn)品,前提是商業(yè)化產(chǎn)品支持對(duì)模型做fine-tune(微調(diào))。比如OpenAI就支持對(duì)它的基礎(chǔ)模型做fine-tune來(lái)實(shí)現(xiàn)個(gè)性化的模型。
- 使用開(kāi)源的大語(yǔ)言模型,對(duì)開(kāi)源模型做fine-tune來(lái)實(shí)現(xiàn)垂直領(lǐng)域的Chat產(chǎn)品。
本文重點(diǎn)介紹有較大參考價(jià)值的開(kāi)源大語(yǔ)言模型,方便大家快速找到適合自己應(yīng)用場(chǎng)景的開(kāi)源模型。
開(kāi)源大語(yǔ)言模型
Model | 作者 | 參數(shù)量 | 訓(xùn)練數(shù)據(jù)量(tokens) | 訓(xùn)練成本 |
---|---|---|---|---|
LLaMA | Meta | 包括 70 億、130 億、330 億、650 億 4 種參數(shù)規(guī)模 | 1.4萬(wàn)億 | 2048個(gè)A100 GPU |
Alpaca | Stanford | 70億 | 52k條問(wèn)答指令數(shù)據(jù),指令數(shù)據(jù)來(lái)源于OpenAI的API返回結(jié)果 | 500美元數(shù)據(jù)成本+100美元訓(xùn)練成本 |
Vicuna | UC Berkeley, CMU, Stanford, UCSD and MBZUAI | 130億 | 70k條問(wèn)答指令數(shù)據(jù),指令數(shù)據(jù)來(lái)源于用戶(hù)分享出來(lái)的對(duì)話(huà)記錄 | 300美元 |
Koala | UC Berkeley | 130億 | 500k條問(wèn)答直錄功能數(shù)據(jù),指令數(shù)據(jù)來(lái)源于網(wǎng)上公開(kāi)數(shù)據(jù)集 | 在公共云計(jì)算平臺(tái)上,預(yù)期訓(xùn)練成本不超過(guò)100美元。一臺(tái) Nvidia DGX 服務(wù)器與8個(gè)A100 GPU,需要6個(gè)小時(shí)訓(xùn)練完成2個(gè)epochs。 |
Dolly 2.0 | Databricks | 120億 | 15k條問(wèn)答指令數(shù)據(jù),指令數(shù)據(jù)來(lái)源于Databricks員工 | 不到30美元 |
ChatGLM | 清華大學(xué)KEG 實(shí)驗(yàn)室和智譜AI | 60億和1300億共2種參數(shù)規(guī)模 | 4000億左右,中文和英文token各2000億 | 數(shù)百萬(wàn)人民幣 |
鵬程·盤(pán)古α | 鵬程實(shí)驗(yàn)室、華為 | 26億、130億和2000億共3種參數(shù)規(guī)模 | 2500億 | 2048 塊昇騰處理器 |
開(kāi)源模型有幾個(gè)注意點(diǎn):
-
第一,LLaMA由Meta開(kāi)源,LLaMA目前僅用于學(xué)術(shù)、社會(huì)公益項(xiàng)目,不能用于商業(yè)化項(xiàng)目。
-
第二,Alpaca, Vicuna, Koala基于LLaMA衍生而來(lái),是在LLaMA大語(yǔ)言模型基礎(chǔ)上做了fine-tune得到的,因此訓(xùn)練成本極低,只需用比較少的指令數(shù)據(jù)做fine-tune即可。這也是為什么這幾個(gè)模型的訓(xùn)練成本很低,因?yàn)檎驹诹薒LaMA這個(gè)巨人的肩膀上。另外,這幾個(gè)模型由于本質(zhì)上還是LLaMA,受限于LLaMA的license限制,同樣不能用于商業(yè)化目的。
-
Dolly 2.0是在EleutherAI pythia模型衍生而來(lái),指令微調(diào)的數(shù)據(jù)集稱(chēng)為 databricks-dolly-15k,也已開(kāi)源發(fā)布,包含來(lái)自數(shù)千名 Databricks 員工的 15,000 個(gè)高質(zhì)量的人工生成的問(wèn)答數(shù)據(jù),專(zhuān)為指令調(diào)優(yōu)大型語(yǔ)言模型而設(shè)計(jì)。且 databricks-dolly-15k 根據(jù)(Creative Commons Attribution-ShareAlike 3.0 Unported License)的許可條款,任何人都可以出于任何目的使用、修改或擴(kuò)展此數(shù)據(jù)集,包括商業(yè)應(yīng)用。
-
國(guó)內(nèi)目前開(kāi)源的主要就是清華主導(dǎo)的ChatGLM,以及華為和鵬程實(shí)驗(yàn)室主導(dǎo)的盤(pán)古alpha模型。
訓(xùn)練模型
如果拿大語(yǔ)言模型做訓(xùn)練,而不是簡(jiǎn)單的指令微調(diào),那訓(xùn)練成本非常高昂,比如ChatGPT訓(xùn)練一次的成本在140萬(wàn)美元左右。
最近微軟開(kāi)源了DeepSpeed,可以加速大語(yǔ)言模型的訓(xùn)練,將ChatGPT 1750億參數(shù)模型的訓(xùn)練成本降低到5120美元左右。
其本質(zhì)是一個(gè)開(kāi)源深度學(xué)習(xí)訓(xùn)練優(yōu)化庫(kù),可以加速ChatGPT模型的訓(xùn)練,比目前最快的訓(xùn)練方法快大約15倍,如果想自己訓(xùn)練大語(yǔ)言模型的可以參考下。
總結(jié)
GPT模型現(xiàn)在真的是日新月異,很多是基于基礎(chǔ)模型,結(jié)合問(wèn)答的指令數(shù)據(jù)對(duì)模型做微調(diào)而得到的。
現(xiàn)在很多媒體報(bào)道的時(shí)候喜歡夸大,大家不要看到冒出一個(gè)新的開(kāi)源模型就覺(jué)得多么厲害了,絕大部分都是站在巨人肩膀上做了微調(diào)而來(lái)的。
上面開(kāi)源大語(yǔ)言模型的表格也會(huì)持續(xù)更新,歡迎大家關(guān)注下面的開(kāi)源地址。
開(kāi)源地址
持續(xù)更新的開(kāi)源大語(yǔ)言模型開(kāi)源地址: ChatGPT模型教程。
公眾號(hào):coding進(jìn)階。
個(gè)人網(wǎng)站:Jincheng’s Blog。
知乎:無(wú)忌。
福利
我為大家整理了一份后端開(kāi)發(fā)學(xué)習(xí)資料禮包,包含編程語(yǔ)言入門(mén)到進(jìn)階知識(shí)(Go、C++、Python)、后端開(kāi)發(fā)技術(shù)棧、面試題等。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-454612.html
關(guān)注公眾號(hào)「coding進(jìn)階」,發(fā)送消息 backend 領(lǐng)取資料禮包,這份資料會(huì)不定期更新,加入我覺(jué)得有價(jià)值的資料。還可以發(fā)送消息「進(jìn)群」,和同行一起交流學(xué)習(xí),答疑解惑。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-454612.html
References
- https://mp.weixin.qq.com/s/7CW4p8RgAF3jYGmgefB_eg
- https://mp.weixin.qq.com/s/M-ToNk8SABoP2JG0xLUBxQ
到了這里,關(guān)于一文匯總開(kāi)源大語(yǔ)言模型,人人都可以擁有自己的ChatGPT的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!