來(lái)源: 新智源? 微信號(hào):AI-era
Meta的LLaMA模型開源,讓文本大模型迎來(lái)了Stable Diffustion時(shí)刻。誰(shuí)都沒想
誰(shuí)能想到,一次意外的LLaMA泄漏,竟點(diǎn)燃了開源LLM領(lǐng)域最大的創(chuàng)新火花。
一系列表現(xiàn)出色的ChatGPT開源替代品——「羊駝家族」,隨后眼花繚亂地登場(chǎng)。
開源和基于 API 的分發(fā)之間的摩擦,是生成式AI生態(tài)系統(tǒng)中最迫在眉睫的矛盾之一。
在文本到圖像領(lǐng)域,Stable Diffusion的發(fā)布清楚地表明,對(duì)于基礎(chǔ)模型來(lái)說,開源是一種可行的分發(fā)機(jī)制。
然而,在大語(yǔ)言模型領(lǐng)域卻并非如此,這個(gè)領(lǐng)域最大的突破,比如GPT-4、Claude和Cohere等模型,都只能通過API獲得。
這些模型的開源替代品沒有表現(xiàn)出相同水平的性能,特別是在遵循人類指令能力上。然而,一場(chǎng)意想不到的泄露,讓這種狀況徹底發(fā)生了改變。
LLaMA的「史詩(shī)級(jí)」泄漏
幾周前,Meta AI推出了大語(yǔ)言模型LLaMA 。
LLaMA 有不同的版本,包括7B、13B、33B和65B的參數(shù),雖然它比GPT-3小,但在許多任務(wù)上,它都能和GPT-3的性能相媲美。
LLaMA 起初并未開源,但在發(fā)布一周后,這個(gè)模型忽然在4chan上泄露了,引發(fā)了數(shù)千次下載。
這個(gè)事件,可以被稱為「史詩(shī)級(jí)泄漏」了,因?yàn)樗蔀榱舜笳Z(yǔ)言模型領(lǐng)域?qū)映霾桓F的創(chuàng)新來(lái)源。
短短幾周內(nèi),基于它構(gòu)建的LLM代理的創(chuàng)新,已經(jīng)呈爆炸式增長(zhǎng)。
Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來(lái)回顧一下,這場(chǎng)「羊駝家族」的大爆炸,是如何誕生的。
Alpaca
在三月中旬,斯坦福發(fā)布的大模型Alpaca火了。?
Alpaca是由Meta的LLaMA 7B微調(diào)而來(lái)的全新模型,僅用了52k數(shù)據(jù),性能約等于GPT-3.5。
關(guān)鍵是訓(xùn)練成本奇低,不到600美元。
斯坦福研究者對(duì)GPT-3.5(text-davinci-003)和Alpaca 7B進(jìn)行了比較,發(fā)現(xiàn)這兩個(gè)模型的性能非常相似。Alpaca在與GPT-3.5的比較中,獲勝次數(shù)為90對(duì)89。
對(duì)于斯坦福的團(tuán)隊(duì)來(lái)說,想要在預(yù)算內(nèi)訓(xùn)練一個(gè)高質(zhì)量的指令遵循模型,就必須面臨2個(gè)重要的挑戰(zhàn):要有一個(gè)強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型,以及一個(gè)高質(zhì)量的指令遵循數(shù)據(jù)。
恰恰,提供給學(xué)術(shù)研究人員使用的LLaMA模型搞定了第一個(gè)問題。
對(duì)于第二個(gè)挑戰(zhàn),「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發(fā),即使用現(xiàn)有的強(qiáng)語(yǔ)言模型來(lái)自動(dòng)生成指令數(shù)據(jù)。
LLaMA模型最大的弱點(diǎn),就是缺乏指令微調(diào)。OpenAI最大的創(chuàng)新之一就是將指令調(diào)優(yōu)用在了GPT-3上。
對(duì)此,斯坦福使用了現(xiàn)有的大語(yǔ)言模型,來(lái)自動(dòng)生成遵循指令演示。
現(xiàn)在,Alpaca直接被網(wǎng)友們奉為「文本大模型的Stable Diffusion」。
Vicuna
3月底,來(lái)自UC伯克利、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的研究人員開源了Vicuna,這是一個(gè)與GPT-4性能相匹配的LLaMA微調(diào)版本。
130億參數(shù)的Vicuna,通過在ShareGPT收集的用戶共享對(duì)話上對(duì)LLaMA進(jìn)行微調(diào)訓(xùn)練而來(lái),訓(xùn)練成本近300美元。
結(jié)果顯示Vicuna-13B在超過90%的情況下,實(shí)現(xiàn)了與ChatGPT和Bard相匹敵的能力。
對(duì)于Vicuna-13B訓(xùn)練流程,具體如下:
首先,研究人員從ChatGPT對(duì)話分享網(wǎng)站ShareGPT上,收集了大約70K對(duì)話。
接下來(lái),研究人員優(yōu)化了Alpaca提供的訓(xùn)練腳本,使模型能夠更好地處理多輪對(duì)話和長(zhǎng)序列。之后利用PyTorch FSDP在8個(gè)A100 GPU上進(jìn)行了一天的訓(xùn)練。
在模型的質(zhì)量評(píng)估方面,研究人員創(chuàng)建了80個(gè)不同的問題,并用GPT-4對(duì)模型輸出進(jìn)行了評(píng)價(jià)。
為了比較不同的模型,研究人員將每個(gè)模型的輸出組合成一個(gè)單獨(dú)的提示,然后讓GPT-4評(píng)估哪個(gè)模型給出的回答更好。
LLaMA、Alpaca、Vicuna和ChatGPT的對(duì)比
Koala
最近,UC伯克利 AI?Research Institute(BAIR)又發(fā)布了一個(gè)新模型「考拉」(Koala),相比之前使用OpenAI的GPT數(shù)據(jù)進(jìn)行指令微調(diào),Koala的不同之處在于使用網(wǎng)絡(luò)獲取的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練。
研究結(jié)果表明,Koala可以有效地回答各種用戶的查詢,生成的回答往往比Alpaca更受歡迎,至少在一半的情況下與ChatGPT的效果不相上下。
研究人員希望這次實(shí)驗(yàn)的結(jié)果可以進(jìn)一步推動(dòng)圍繞大型閉源模型相對(duì)于小型公共模型的相對(duì)性能的討論,特別是結(jié)果表明,對(duì)于那些能在本地運(yùn)行的小模型,如果認(rèn)真地收集訓(xùn)練數(shù)據(jù),也可以取得大模型的性能。
事實(shí)上,在此之前斯坦福大學(xué)發(fā)布的Alpaca模型,根據(jù)OpenAI的GPT模型對(duì)LLaMA的數(shù)據(jù)進(jìn)行微調(diào)的實(shí)驗(yàn)結(jié)果已經(jīng)表明,正確的數(shù)據(jù)可以顯著改善規(guī)模更小的開源模型。
這也是伯克利的研究人員開發(fā)和發(fā)布Koala模型的初衷,希望為這個(gè)討論結(jié)果再提供了一個(gè)實(shí)驗(yàn)證明。
Koala對(duì)從網(wǎng)上獲取的免費(fèi)交互數(shù)據(jù)進(jìn)行了微調(diào),并且特別關(guān)注包括與ChatGPT 等高性能閉源模型交互的數(shù)據(jù)。
研究人員并沒有追求盡可能多的抓取網(wǎng)絡(luò)數(shù)據(jù)來(lái)最大化數(shù)據(jù)量,而是專注于收集一個(gè)小型的高質(zhì)量數(shù)據(jù)集,包括ChatGPT蒸餾數(shù)據(jù)、開源數(shù)據(jù)等。
ChatLLaMA
Nebuly開源了ChatLLaMA ,這是一個(gè)使用讓我們使用自己的數(shù)據(jù)創(chuàng)建對(duì)話助手的框架。
ChatLLaMA讓我們使用自己的數(shù)據(jù)和盡可能少的計(jì)算量,來(lái)創(chuàng)建超個(gè)性化的類似ChatGPT的助手。
假設(shè)在未來(lái),我們不再依賴一個(gè)「統(tǒng)治所有人」的大型助手,每個(gè)人都可以創(chuàng)建自己的個(gè)性化版本類ChatGPT助手,它們可以支持人類的各種需求。
不過,創(chuàng)建這種個(gè)性化助手需要在許多方面做出努力:數(shù)據(jù)集創(chuàng)建,使用RLHF進(jìn)行高效訓(xùn)練,以及推理優(yōu)化。
這個(gè)庫(kù)的目的是,通過抽象計(jì)算優(yōu)化和收集大量數(shù)據(jù)所需的工作,讓開發(fā)人員高枕無(wú)憂。
??
ChatLLaMA旨在幫助開發(fā)人員處理各種用例,所有用例都與RLHF訓(xùn)練和優(yōu)化推理有關(guān)。以下是一些用例參考:
-
為垂直特定任務(wù)(法律、醫(yī)療、游戲、學(xué)術(shù)研究等)創(chuàng)建類似ChatGPT的個(gè)性化助手;
-
想在本地硬件基礎(chǔ)設(shè)施上使用有限的數(shù)據(jù),訓(xùn)練一個(gè)高效的類似ChatGPT的助手;
-
想創(chuàng)建自己的個(gè)性化版本類ChatGPT助手,同時(shí)避免成本失控;
-
想了解哪種模型架構(gòu)(LLaMA、OPT、GPTJ等)最符合我在硬件、計(jì)算預(yù)算和性能方面的要求;
-
想讓助理與我的個(gè)人/公司價(jià)值觀、文化、品牌和宣言保持一致。
??
FreedomGPT
FreedomGPT使用Electron 和 React構(gòu)建,它是一個(gè)桌面應(yīng)用程序,允許用戶在他們的本地機(jī)器上運(yùn)行LLaMA。
FreedomGPT的特色,從它的名字上就可見一斑——它回答的問題不受任何審查或安全過濾。
這個(gè)程序由AI風(fēng)險(xiǎn)投資公司Age of AI開發(fā)。
FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的顯著特征,因?yàn)榕c其他模型相比,Alpaca相對(duì)更易于訪問和定制。
ChatGPT遵循OpenAI的使用政策,限制仇恨、自殘、威脅、暴力、性方面的內(nèi)容。
與ChatGPT不同,F(xiàn)reedomGPT回答問題時(shí)沒有偏見或偏袒,并且會(huì)毫不猶豫地回答有爭(zhēng)議或爭(zhēng)論性的話題。
FreedomGPT甚至還回答了「如何在家制造炸彈」,而OpenAI專門從GPT-4中刪除了這一點(diǎn)。
FreedomGPT很獨(dú)特,因?yàn)樗朔藢彶橄拗?,在沒有任何保障的情況下迎合有爭(zhēng)議的話題。它的標(biāo)志是自由女神像,因?yàn)檫@個(gè)獨(dú)特而大膽的大語(yǔ)言模型象征了自由。
FreedomGPT甚至可以在不需要聯(lián)網(wǎng)的情況下,就能在計(jì)算機(jī)上本地運(yùn)行。
此外,開源版本將很快發(fā)布,使用戶和組織可以完全定制。
ColossalChat
UC伯克利提出的ColossalChat只需要不到100億個(gè)參數(shù)就可以達(dá)到中英文雙語(yǔ)能力,效果與ChatGPT和GPT-3.5相當(dāng)。
此外,基于LLaMA模型的ColossalChat,還復(fù)刻了完整的RLHF過程,是目前最接近ChatGPT原始技術(shù)路線的開源項(xiàng)目。
中英雙語(yǔ)訓(xùn)練數(shù)據(jù)集
ColossalChat發(fā)布了一個(gè)雙語(yǔ)數(shù)據(jù)集,其中包含大約100,000個(gè)中英文問答對(duì)。
該數(shù)據(jù)集是從社交媒體平臺(tái)上的真實(shí)問題場(chǎng)景中收集和清理的,作為種子數(shù)據(jù)集,使用self-instruct進(jìn)行擴(kuò)展,標(biāo)注成本約為900美元。
與其他self-instruct方法生成的數(shù)據(jù)集相比,該數(shù)據(jù)集包含更真實(shí)和多樣化的種子數(shù)據(jù),涵蓋更廣泛的主題。
該數(shù)據(jù)集適用于微調(diào)和RLHF訓(xùn)練。在提供優(yōu)質(zhì)數(shù)據(jù)的情況下,ColossalChat可以實(shí)現(xiàn)更好的對(duì)話交互,同時(shí)也支持中文。
?完整的RLHF管線
RLHF的算法復(fù)刻共有三個(gè)階段:
在RLHF-Stage1中,使用上述雙語(yǔ)數(shù)據(jù)集進(jìn)行監(jiān)督指令微調(diào)以微調(diào)模型。
在RLHF-Stage2中,通過對(duì)同一提示的不同輸出手動(dòng)排序來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型分配相應(yīng)的分?jǐn)?shù),然后監(jiān)督獎(jiǎng)勵(lì)模型的訓(xùn)練。
在RLHF-Stage3中,使用了強(qiáng)化學(xué)習(xí)算法,這是訓(xùn)練過程中最復(fù)雜的部分。
相信很快,就會(huì)有更多項(xiàng)目發(fā)布。
誰(shuí)也沒想到,這場(chǎng)LLaMA的意外泄露,竟點(diǎn)燃了開源LLM領(lǐng)域最大的創(chuàng)新火花。
參考資料:文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-498116.html
https://thesequence.substack.com/p/the-LLaMA%20%20-effect-how-an-accidental文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-498116.html
到了這里,關(guān)于開發(fā)者笑瘋了! LLaMa驚天泄露引爆ChatGPT平替狂潮,開源LLM領(lǐng)域變天的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!