本文是開源 LLM 發(fā)展史系列文章的第二部分。第一部分《開源語言大模型演進(jìn)史:早期革新》回顧了創(chuàng)建開源 LLM 的最初嘗試。本文將研究目前可用的最受歡迎的開源基礎(chǔ)模型(即已進(jìn)行預(yù)訓(xùn)練但尚未微調(diào)或?qū)R的語言模型)。
(本文作者為Rebuy公司AI總監(jiān)、深度學(xué)習(xí)博士Cameron R. Wolfe。以下內(nèi)容經(jīng)授權(quán)后由OneFlow編譯發(fā)布,轉(zhuǎn)載請聯(lián)系授權(quán)。原文:https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-better)
作者 |?Cameron R. Wolfe
OneFlow編譯
翻譯|宛子琳、楊婷
語言大模型(LLM)的開源研究非常有價值,它旨在使一項強大而有影響力的技術(shù)實現(xiàn)民主化。雖然目前開源 LLM 已得到廣泛應(yīng)用和研究,但最初,它的發(fā)展卻并不順利,經(jīng)歷了一些難以克服的困難。
換句話說,最初的開源 LLM 表現(xiàn)不佳,受到了嚴(yán)厲批評。本文將探討這一系列研究,這些研究通過為所有人提供高質(zhì)量的預(yù)訓(xùn)練 LLM 改善了上述局面??紤]到預(yù)訓(xùn)練語言模型的高昂成本,在這里我們將主要探討具有重大影響力的模型,這些高質(zhì)量基礎(chǔ)模型使得人們能夠以相對低廉的成本進(jìn)行研究。
“雖然訓(xùn)練方法看似簡單,但 LLM 的強大能力令人驚嘆。”——引自[14]
引自[10, 12, 14, 15]
1
開源 LLM 的早期階段
在本系列的第一部分,我們探討了開源 LLM 的早期研究,其間提出了一些重要的基礎(chǔ)模型,如 OPT 和 BLOOM 。然而,與閉源預(yù)訓(xùn)練模型(如 GPT-3)相比,人們認(rèn)為這些模型的表現(xiàn)普遍較差。我們該如何解決這一問題?首先,我們需要更深入了解 LLM 的訓(xùn)練過程。
訓(xùn)練 pipeline:如下圖所示,LLM 的訓(xùn)練過程分為多個步驟。首先,我們需要在大量原始文本上對模型進(jìn)行預(yù)訓(xùn)練。其次,我們需要使用 SFT 和 RLHF 等技術(shù)對模型進(jìn)行對齊。最后,通過進(jìn)一步的微調(diào)或在上下文中學(xué)習(xí),使 LLM 更好地適應(yīng)特定任務(wù)。
最近,強有力的實證證據(jù)表明:語言模型的大部分知識都是在預(yù)訓(xùn)練階段獲得。對齊過程只是教會了模型如何正確地格式化或顯化在預(yù)訓(xùn)練中獲得的知識。正如 LIMA 提出的,這個想法被稱為“表面對齊假設(shè)(Superficial Alignment Hypothesis)“。雖然這個假設(shè)看似與本文主題不完全相關(guān),但我們從中學(xué)到了重要的一點:即經(jīng)過不充分預(yù)訓(xùn)練的模型不太可能通過微調(diào)或?qū)R“修復(fù)”。
“模型的知識和能力幾乎都是在預(yù)訓(xùn)練過程中獲得的,而對齊過程則教會了模型與用戶交互時應(yīng)使用的子分布格式?!?/em> ——引自 [3]
如何解決?鑒于初始開源 LLM 的質(zhì)量較差,如果要取得研究進(jìn)展,社區(qū)就必須從零開始創(chuàng)建高質(zhì)量的基礎(chǔ)模型,這一點很快就得到了明確。此外,這些模型需要在更多的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,以提升能力。然而,由于高昂的預(yù)訓(xùn)練成本(尤其在大量數(shù)據(jù)上執(zhí)行時),創(chuàng)建更好的開源基礎(chǔ)模型必須由資金充足的組織(如 Meta 或 MosaicML )來承擔(dān),他們可以負(fù)擔(dān)訓(xùn)練這些模型的成本,并將其免費提供給社區(qū)中的其他人使用。
2
創(chuàng)建更好的基礎(chǔ)模型
在開源 LLM 的早期發(fā)展階段,由于其質(zhì)量較差,未能得到廣泛的使用和探索,但這一問題很快就得到了解決。接下來,我們將回顧幾種模型,這些模型通過強大的預(yù)訓(xùn)練 LLM,改變了上述態(tài)勢,使開源 LLM 廣泛可用。
LLaMA:開源模型質(zhì)量的飛躍
LLaMA [1] 是最早發(fā)布的開源且高質(zhì)量的預(yù)訓(xùn)練 LLM 之一。但 LLaMA 并非單一模型,而是包含多個 LLM 的套件,其模型規(guī)模從 70 億到 650 億個參數(shù)不等。這些模型在性能和推理效率之間作了不同的權(quán)衡。盡管 LLaMA 不能商用(僅限于研究),但作為一個具有重要影響力的提案,它從多個方面推動了開源 LLM 的研究。
(引自[1])
數(shù)據(jù):受 Chinchilla [2]的啟發(fā),LLaMA 模型是在一個超 1.4 萬億個文本詞元的語料庫上進(jìn)行預(yù)訓(xùn)練的。這個預(yù)訓(xùn)練數(shù)據(jù)集比之前的開源 LLM 要大得多。數(shù)據(jù)的來源和分布如上圖所示。有趣的是,LLaMA 僅使用公開可用的數(shù)據(jù)來源進(jìn)行預(yù)訓(xùn)練,這意味著,任何具備足夠計算能力的人都可以復(fù)制整個預(yù)訓(xùn)練過程。
“GPT-4從各種商業(yè)許可、創(chuàng)作且公開可用的數(shù)據(jù)來源中進(jìn)行學(xué)習(xí),其中可能包括公開的個人信息?!?/em>——來自GPT-4博文
這種特性尤其令人向往,許多專有 LLM 使用的是不公開的內(nèi)部訓(xùn)練數(shù)據(jù)。簡而言之,LLaMA 從各個方面為提高 LLM 的透明度和開放性邁出了重要一步。
(引自[1])
效果提升:與之前的模型相比,LLaMA 代表著開源 LLM 表現(xiàn)的重大飛躍。盡管模型表現(xiàn)仍落后于頂級的專有 LLM(如 ChatGPT 或 GPT-4 ),但其尚未對齊。值得注意的是,LLaMA-13B 與 GPT-3 [3]的表現(xiàn)相當(dāng),而 LLaMA-65B 在多種情況下的表現(xiàn)都優(yōu)于 PaLM [4],這表明 LLaMA 套件的表現(xiàn)與其他廣泛應(yīng)用的基礎(chǔ)模型相當(dāng)。詳細(xì)指標(biāo)請參考上方表格。
(引自[5, 6, 7, 8])
開源模型的爆炸式增長:LLaMA 發(fā)布后最有趣的一點是隨之而來的開源 LLM 研究浪潮。LLaMA 模型的權(quán)重公開之后,開源研究社區(qū)迅速發(fā)布了各種不同的模型變體和軟件包。這些迭代包括從 LLaMA 的微調(diào)版到用于在筆記本電腦上高效運行任何 LLaMA 模型推理的 C++ 庫,真正展現(xiàn)出開源研究的優(yōu)勢。我們僅用了幾周時間,就從僅能通過 API 與這些強大模型交互,變?yōu)榭梢栽诠P記本電腦上運行它們!
MPT:高質(zhì)量、可商用且開源的LLM
(from [10])
盡管 LLaMA 給人留下了深刻印象,但該套件中的模型均不能商用——它們僅從研究角度具有價值。幸運的是,LLaMA 發(fā)布后很快被 MosaicML 開發(fā)并發(fā)布了可商用(采用 Apache 2.0 許可發(fā)布)的 MPT 套件。首先發(fā)布的是 MPT-7B [9],它引起了廣泛關(guān)注(基本上是LLaMA-7B 的商用版)。實際上,在更大的 MPT-30B [10]模型發(fā)布之前,MPT-7B 在 HuggingFace 上獲得了超300萬次下載量!
(from [9, 10])
這兩個模型的主要區(qū)別在于:
-
它們使用略有不同的數(shù)據(jù)混合進(jìn)行預(yù)訓(xùn)練,請參考上圖。
-
MPT-30B 使用更長的上下文長度進(jìn)行訓(xùn)練,達(dá)到了8千個詞元。
然而,這兩個模型的表現(xiàn)都十分出色,適合商用,在人工智能社區(qū)廣受歡迎。
(from [9])
MPT是否達(dá)到了大眾的期待?盡管 LLaMA 顯著提升了開源 LLM 的 SOTA 表現(xiàn),但 MPT 套件能夠與之媲美。特別是,LLaMA-7B 模型在多個標(biāo)準(zhǔn)基準(zhǔn)測試中的效果可與 MPT-7B 相媲美(可參考上圖)。此外,MPT-30B 模型效果也與 GPT-3 相當(dāng)。與類似規(guī)模的開源模型(如 LLaMA-30B 和 Falcon-40B)相比,MPT-30B 的表現(xiàn)稍顯遜色,具體詳見下圖。然而,MPT-30B 在編碼相關(guān)任務(wù)上表現(xiàn)更好,并且可以在單個 GPU 上進(jìn)行部署(通過量化技術(shù))。
(引自 [10])
MPT 變體:除預(yù)訓(xùn)練 MPT-7B 和 MPT-30B 模型之外,還發(fā)布了多種經(jīng)微調(diào)的 MPT 模型,如 instruct 和 chat 4 等版本。此外,通過在數(shù)據(jù)上微調(diào),創(chuàng)建了“StoryWriter”版本的 MPT-7B 模型,該版本使用了 64K 詞元上下文長度的微調(diào)數(shù)據(jù)。相比微調(diào),預(yù)訓(xùn)練 LLM 的成本相對較高,通過微調(diào)可以以較低成本創(chuàng)建各種不同的 MPT 變體。具體詳見下圖。
但不止于此!MPT 模型非常實用(尤其對于從事商業(yè)應(yīng)用的人士而言),除此之外,這些模型還搭載了一整套由 MosaicML 發(fā)布的完整軟件工具(即 LLM foundry)。這套開源代碼可用于 MPT 模型的預(yù)訓(xùn)練和微調(diào),使 MPT 套件成為了極具價值的工具,可在各種專門的應(yīng)用場景中進(jìn)一步探索 LLM 的應(yīng)用。
Falcon:開源模型質(zhì)量的新高峰
(引自 [1])
雖然在開源 LLM 領(lǐng)域已經(jīng)取得了明顯進(jìn)展,但相當(dāng)長的一段時間里,開源模型的表現(xiàn)仍落后于專有 LLM。然而,F(xiàn)alcon 套件的發(fā)布[11]首次真正實現(xiàn)了與專有 LLM 相媲美的質(zhì)量,為開源領(lǐng)域提供了可靠的替代選擇。Falcon提供了兩個變體——Falcon-7B 和 Falcon-40B。除商業(yè)許可之外,這些 Falcon 模型使用了一個龐大且經(jīng)精選的語料庫還進(jìn)行預(yù)訓(xùn)練,因此表現(xiàn)優(yōu)秀。值得一提的是,F(xiàn)alcon-40B 的 instruct 變體在 OpenLLM 排行榜上表現(xiàn)出色(明顯領(lǐng)先),這一優(yōu)勢持續(xù)了數(shù)月。
“通過對數(shù)據(jù)質(zhì)量和 LLM 現(xiàn)有觀念的挑戰(zhàn),只要使用經(jīng)充分過濾(filtering )和去重的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練,模型表現(xiàn)就能與使用精選數(shù)據(jù)訓(xùn)練的模型相媲美?!?/em> ——引自[12]
從網(wǎng)絡(luò)上整理數(shù)據(jù):Falcon 模型在一個名為 RefinedWeb [12] 的巨大文本語料庫上進(jìn)行訓(xùn)練,其中包含超 5 萬億個詞元。實際上,F(xiàn)alcon-7B 和 Falcon-40B 的預(yù)訓(xùn)練僅使用了 RefinedWeb 數(shù)據(jù)集中的 1.5 萬億個詞元和 1 萬億個詞元。盡管大多數(shù) LLM 模型通常是在經(jīng)過精選的公共數(shù)據(jù)源上進(jìn)行預(yù)訓(xùn)練,但 Falcon 的開發(fā)者選擇利用網(wǎng)絡(luò)數(shù)據(jù)(即 CommonCrawl)構(gòu)建他們自己的預(yù)訓(xùn)練數(shù)據(jù)集。為了篩選這些數(shù)據(jù),他們創(chuàng)造了一個全新的 pipeline,這個 pipeline 使用了簡潔有效的組件。可參考下圖獲取詳細(xì)信息。
(引自[12, 13])
RefinedWeb 語料庫的例子表明,可以從網(wǎng)絡(luò)上有效管理大量高質(zhì)量文本數(shù)據(jù)(超出了之前探索的數(shù)據(jù)集規(guī)模)。經(jīng)過濾后,通過這些數(shù)據(jù)訓(xùn)練的模型效果甚至可以優(yōu)于通過精選數(shù)據(jù)源訓(xùn)練的同類模型。
(引自[12])
上圖為 Falcon-7B 和 Falcon-40B 的具體訓(xùn)練數(shù)據(jù)集。值得注意的是,F(xiàn)alcon-7B 僅使用了英語數(shù)據(jù)進(jìn)行訓(xùn)練,而 Falcon-40B 使用了多種歐洲語言進(jìn)行預(yù)訓(xùn)練。
新的 SOTA。目前,尚未有任何關(guān)于 Falcon 模型的公開信息。因此,我們只能通過 OpenLLM 排行榜對這些模型進(jìn)行正式評估,其中 Falcon-40B 的表現(xiàn)引人注目,特別是 Falcon-40B-Instruct,它的表現(xiàn)明顯優(yōu)于其他模型,曾被認(rèn)為是 SOTA 模型。詳細(xì)信息可參考下圖。
(引自開源 LLM 排行榜)
從定性角度來說,一些業(yè)內(nèi)人士認(rèn)為,基于 LLaMA 的模型在效果上優(yōu)于 Falcon-40B。雖然我們需要了解不同的看法和見解,但這些觀點都帶有主觀性。在標(biāo)準(zhǔn)化自然語言基準(zhǔn)測試中,F(xiàn)alcon LLM 的表現(xiàn)非常出色,長期保持著開源模型中的 SOTA 表現(xiàn)。
LLaMA-2:當(dāng)前的 SOTA 模型
(引自[14])
盡管 Falcon-40B 在一段時間內(nèi)曾是最先進(jìn)的開源 LLM,但最近發(fā)布的 LLaMA-2 系列模型取代了它的領(lǐng)先地位。與 LLAMA-1 類似,LLaMA-2 [14] 由幾個不同的 LLM 組成,參數(shù)大小從 70 億到 700 億不等,且僅使用公開可用的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。LLAMA-2 模型的預(yù)訓(xùn)練和微調(diào)版均已發(fā)布,但由于我們專注于開源基礎(chǔ)模型領(lǐng)域,因此本部分僅介紹了預(yù)訓(xùn)練模型。
“雖然有一些公開發(fā)布的預(yù)訓(xùn)練 LLM(如BLOOM)在質(zhì)量上能與閉源預(yù)訓(xùn)練的 LLM(如GPT-3和 Chinchilla)相匹敵,但這些模型都不適合作為 ChatGPT、BARD和 Claude 等閉源產(chǎn)品 LLM 的替代品?!?/em>——引自[14]
LLaMA-2 發(fā)布了一組在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的基礎(chǔ)模型,擁有更好的表現(xiàn),這進(jìn)一步縮小了開源和閉源語言模型之間的差距。不久后我們將見證,這些模型雖無法與專有模型的表現(xiàn)相媲美,但它們比以往的任何開源模型的表現(xiàn)都更接近于專有模型。
(引自[14])
不同之處?除了一些細(xì)微(但影響深遠(yuǎn))的差別之外,LLaMA-2 采用的方法與其之前版本的模型非常相似。首先,LLaMA-2 模型預(yù)訓(xùn)練的數(shù)據(jù)量增加了 40% 以上,總計達(dá) 2 萬億個詞元,而 LLaMA-1 的數(shù)據(jù)量為 1.4 萬億個詞元。此外,LLaMA-2 模型使用稍長的上下文長度進(jìn)行訓(xùn)練,較大的模型在其底層架構(gòu)中使用分組查詢注意力 (GQA)。有趣的是,作者在[14]中指出,LLaMA-2 的預(yù)訓(xùn)練設(shè)置了知識更豐富的數(shù)據(jù)樣本源。這樣的改變是為了強調(diào)事實來源,增加知識量,減少幻覺。
(引自[15])
什么是GQA?正如[15]中提出的,GQA 是一種對多頭自注意力機制(multi-headed self-attention)的修改,旨在提高 LLM 的推理效率。在典型的多頭自注意力機制中,存在N個查詢(query)、鍵(key)和值(value),形成了 N 個自注意力頭。而在 GQA 中,我們將這 N 個頭分為多個組,每個組內(nèi)共享鍵頭和值頭,如上圖所示。這種方法實際上是標(biāo)準(zhǔn)多頭自注意力和多查詢注意力之間的一種插值方法,通過在所有 N 個頭上的共享鍵和值的投影來實現(xiàn)。研究發(fā)現(xiàn)[15],GQA 在保持多頭自注意力性能的同時,能夠顯著提高推理速度,與多查詢注意力相當(dāng)。
(引自[14])
LLaMA-2 效果優(yōu)越。與流行的開源模型(如MPT、Falcon和LLaMA-1)相比,LLaMA-2 的表現(xiàn)十分出色。事實上,LLaMA-2-70B 在所有任務(wù)中都創(chuàng)造了開源 LLM 的新 SOTA,如上圖所示。但值得注意的是,LLaMA-2 在基于編碼的任務(wù)(例如 HumanEval)方面表現(xiàn)相對較差,這點受到了一定的批評。
與專有模型相比,LLaMA-2 基礎(chǔ)模型的表現(xiàn)相對較差。然而,這個比較是與經(jīng)過對齊的模型(如GPT-3.5、GPT-4等)進(jìn)行的。與其他流行的基礎(chǔ) LLM(如PaLM [4])相比,LLaMA-2 的表現(xiàn)仍然非常出色。
商業(yè)許可。LLaMA-1 只能用于研究,而 LLaMA-2 則采用商業(yè)許可方式發(fā)布,這意味著像 MPT 和 Falcon 一樣,LLaMA-2 模型可以用于商業(yè)應(yīng)用。但 LLaMA-2 的許可并非標(biāo)準(zhǔn)的 Apache 2.0,它有一些注意事項需要從業(yè)者考慮。其中最重要的是,任何由 LLaMA-2 提供支持的擁有超過 7 億月活用戶的實體或應(yīng)用都必須從 Meta(元數(shù)據(jù)公司)獲得許可證后才能使用 LLaMA-2。
3
開源LLM的發(fā)展趨勢
鑒于 LLaMA、MPT、Falcon 和 LLaMA-2 在質(zhì)量上相比以往的模型有了較大突破,那么當(dāng)前的開源 LLM 為何能取得如此出色的表現(xiàn)呢?下文簡要解釋了這些模型的幾個關(guān)鍵特性,這些特性賦予了它們出色的表現(xiàn),并推動了它們迅速受到關(guān)注。特別是,這些模型通過大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并且它們特別強調(diào)推理效率。
更好的數(shù)據(jù)=更好的效果!
預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模是當(dāng)前開源 LLM 與之前模型的關(guān)鍵區(qū)別。雖然 OPT 和 BLOOM 等模型分別使用了 1800 億和 3410 億個詞元進(jìn)行訓(xùn)練,但當(dāng)前的開源模型使用了規(guī)模更大的預(yù)訓(xùn)練數(shù)據(jù)集:
-
LLaMA:1.4 萬億詞元
-
MPT:1 萬億詞元
-
Falcon:1-1.5 萬億詞元
-
LLaMA-2:2 萬億詞元
與之前的模型相比,當(dāng)前開源 LLM 的預(yù)訓(xùn)練數(shù)據(jù)量(幾乎)增加了一個數(shù)量級!事實上,這些預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模與專有 LLM 使用的數(shù)據(jù)集規(guī)模相當(dāng)。例如,MassiveText 數(shù)據(jù)集(用于訓(xùn)練 Gopher[13]和Chinchilla[2])包含約 2.3 萬億個詞元,盡管在預(yù)訓(xùn)練時實際上只使用了其中的一個子集。見下圖。
擴展并非一切!除大幅增加預(yù)訓(xùn)練數(shù)據(jù)量外,目前的開源 LLM 還密切關(guān)注數(shù)據(jù)的構(gòu)成和質(zhì)量,這是效果提升的關(guān)鍵。例如,在 MPT 的訓(xùn)練數(shù)據(jù)集中增加了代碼的比例,從而提升了模型在與編程相關(guān)任務(wù)上的表現(xiàn)。此外,F(xiàn)alcon-40B 提出了一種全新 pipeline,用于從網(wǎng)絡(luò)上構(gòu)建高質(zhì)量的文本語料庫。而 LLaMA-2 則聲稱使用了更新的數(shù)據(jù) pipeline 和混合方式進(jìn)行預(yù)訓(xùn)練。總之,關(guān)注預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和組成似乎是近期開源 LLM 研究的共同趨勢。
“我們執(zhí)行了更嚴(yán)格的數(shù)據(jù)清理,更新了數(shù)據(jù)組合,增加了 40% 的總詞元,將上下文長度加倍,使用了分組查詢注意力 (GQA) ,以提高模型的推理可擴展性。”——(引自[14])
優(yōu)化以加快推理速度
在選擇使用開源或?qū)S械?LLM 時,從業(yè)者需要考慮的不僅僅是效果。付費語言模型 API 可能在廣泛的任務(wù)范圍內(nèi)取得令人印象深刻的表現(xiàn),但它們通常無法針對特定領(lǐng)域的數(shù)據(jù)進(jìn)行微調(diào)。然而,使用開源 LLM 構(gòu)建應(yīng)用程序時,我們需要考慮模型的部署成本??紤]到托管 LLM 的困難,近期的開源模型更加注重快速和簡便的推理過程。實際上,MPT-30B [10] 經(jīng)過了專門設(shè)計,以便在單個 GPU 上進(jìn)行部署。
(引自[15][16][17])
修改后的架構(gòu)。除了比大多數(shù)專有模型略小之外,當(dāng)前的開源 LLM 還采用了各種架構(gòu)技巧(如上圖所示)來加速推理過程,例如:
-
低精度層范數(shù)
-
Flash Attention
-
多查詢注意力
-
并行Transformer
-
分組查詢注意力
此外,當(dāng)前的開源 LLM 還采用了其他幾種架構(gòu)修改(例如 RoPE 嵌入、ALiBi、SwiGLU 激活等)來提高模型效果。當(dāng)前的開源 LLM 對純解碼器 Transformer 架構(gòu)進(jìn)行了簡單修改,以提高性能、加快推理速度。
4
結(jié)語
本文研究了開源 LLM 的發(fā)展歷程,從最初的低質(zhì)量模型(如BLOOM和OPT)到最近的強大基礎(chǔ)模型(如LLaMA和MPT)的發(fā)展演變。近期的模型主要關(guān)注更大、更優(yōu)質(zhì)的預(yù)訓(xùn)練數(shù)據(jù)集,從而顯著提高模型質(zhì)量。
由于高質(zhì)量的基礎(chǔ)模型是任何 LLM 應(yīng)用的基礎(chǔ)要求,這些模型對于提升開源 LLM 的受歡迎程度產(chǎn)生了重要影響。如今,任何從業(yè)者都可以利用這些強大的基礎(chǔ) LLM 進(jìn)行研究或商業(yè)應(yīng)用,而無需從零開始預(yù)訓(xùn)練模型,從而節(jié)省了大量資金和時間。
參考文獻(xiàn)(請上下滑動)?
[1] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models."?arXiv preprint arXiv:2302.13971?(2023).
[2] Hoffmann, Jordan, et al. "Training compute-optimal large language models."?arXiv preprint arXiv:2203.15556?(2022).
[3] Zhou, Chunting, et al. "Lima: Less is more for alignment."?arXiv preprint arXiv:2305.11206?(2023).
[4] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways."?arXiv preprint arXiv:2204.02311?(2022).
[5] Taori,? Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).
[6] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).
[7] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).
[8] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.
[9] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.”?MosaicML, 5 May 2023,?www.mosaicml.com/blog/mpt-7b.
[10] “MPT-30B: Raising the Bar for Open-Source Foundation Models.”?MosaicML, 22 June 2023,?www.mosaicml.com/blog/mpt-30b.
[11] “Introducing Falcon LLM”,?Technology Innovation Institute, 7 June 2023,?https://falconllm.tii.ae/.
[12] Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only."?arXiv preprint arXiv:2306.01116?(2023).
[13] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher."?arXiv preprint arXiv:2112.11446?(2021).
[14] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models."?arXiv preprint arXiv:2307.09288?(2023).
[15] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints."?arXiv preprint arXiv:2305.13245?(2023).
[16] Vaswani, Ashish, et al. "Attention is all you need."?Advances in neural information processing systems?30 (2017).
[17] Dao, Tri, et al. "Flashattention: Fast and memory-efficient exact attention with io-awareness."?Advances in Neural Information Processing Systems?35 (2022): 16344-16359.
[18] Dao, Tri. "FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning."?arXiv preprint arXiv:2307.08691?(2023).
注釋:
1.GPT-4 的博客文章也提到語言模型掌握的大部分知識是來自預(yù)訓(xùn)練階段!
2. Chinchilla 論文 [2] 提供了一些有價值的見解,論文表明,當(dāng)我們同時增加模型預(yù)訓(xùn)練數(shù)據(jù)量時,增加語言模型大?。磪?shù)數(shù)量)是最有效的。
3.盡管 LLM 的應(yīng)用趨勢是更長的上下文長度,但大多數(shù)開源 LLM(例如 LLaMA、Falcon 和 MPT-7B)都是使用相對較短的上下文長度(僅 2K 個詞元)進(jìn)行訓(xùn)練的。
4.MPT 模型的 Chat 版不能商用,因為它們的訓(xùn)練數(shù)據(jù)無法商用(例如 ShareGPT)。
5.該模型最近在 OpenLLM 排行榜上被 LLaMA-2-70B 的不同微調(diào)版所取代。
6.LLaMA-2 的微調(diào)版是 LLaMa-2-Chat,它使用了監(jiān)督微調(diào) (SFT) 和來自人類反饋的強化學(xué)習(xí) (RLHF) 來針對聊天用例進(jìn)行優(yōu)化。
7.多種不同的LLM(甚至包括Falcon-40B)都使用多查詢注意力來提高推理速度。
8.順便一提,因為 FlashAttention-2 [18] 的發(fā)布,最近FlashAttention 變得更快了。
其他人都在看
-
GPU架構(gòu)與計算入門指南
-
為什么開源大模型終將勝出
-
LoRA和QLoRA微調(diào)語言大模型
-
OpenAI規(guī)模經(jīng)濟與第二護(hù)城河
-
開源語言大模型演進(jìn)史:早期革新
-
全面對比GPT-3.5與LLaMA 2微調(diào)
-
語言大模型推理性能工程:最佳實踐文章來源:http://www.zghlxwxcb.cn/news/detail-755567.html
試用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/文章來源地址http://www.zghlxwxcb.cn/news/detail-755567.html
到了這里,關(guān)于開源語言大模型演進(jìn)史:高質(zhì)量基礎(chǔ)模型競賽的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!