国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="jvvmj"></kbd>

開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽

2年前作者：OneFlow深度學(xué)習(xí)框架分類：Toy博客閱讀(103)違法舉報

這篇具有很好參考價值的文章主要介紹了開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽,前沿技術(shù),開源,LLM,語言模型,llama

本文是開源 LLM 發(fā)展史系列文章的第二部分。第一部分《開源語言大模型演進(jìn)史：早期革新》回顧了創(chuàng)建開源 LLM 的最初嘗試。本文將研究目前可用的最受歡迎的開源基礎(chǔ)模型（即已進(jìn)行預(yù)訓(xùn)練但尚未微調(diào)或?qū)R的語言模型）。

（本文作者為Rebuy公司AI總監(jiān)、深度學(xué)習(xí)博士Cameron R. Wolfe。以下內(nèi)容經(jīng)授權(quán)后由OneFlow編譯發(fā)布，轉(zhuǎn)載請聯(lián)系授權(quán)。原文：https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-better）

作者 |?Cameron R. Wolfe

OneFlow編譯

翻譯｜宛子琳、楊婷

語言大模型（LLM）的開源研究非常有價值，它旨在使一項強大而有影響力的技術(shù)實現(xiàn)民主化。雖然目前開源 LLM 已得到廣泛應(yīng)用和研究，但最初，它的發(fā)展卻并不順利，經(jīng)歷了一些難以克服的困難。

換句話說，最初的開源 LLM 表現(xiàn)不佳，受到了嚴(yán)厲批評。本文將探討這一系列研究，這些研究通過為所有人提供高質(zhì)量的預(yù)訓(xùn)練 LLM 改善了上述局面?？紤]到預(yù)訓(xùn)練語言模型的高昂成本，在這里我們將主要探討具有重大影響力的模型，這些高質(zhì)量基礎(chǔ)模型使得人們能夠以相對低廉的成本進(jìn)行研究。

“雖然訓(xùn)練方法看似簡單，但 LLM 的強大能力令人驚嘆。”——引自[14]

開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽,前沿技術(shù),開源,LLM,語言模型,llama

引自[10, 12, 14, 15]

1

開源 LLM 的早期階段

在本系列的第一部分，我們探討了開源 LLM 的早期研究，其間提出了一些重要的基礎(chǔ)模型，如 OPT 和 BLOOM 。然而，與閉源預(yù)訓(xùn)練模型（如 GPT-3）相比，人們認(rèn)為這些模型的表現(xiàn)普遍較差。我們該如何解決這一問題？首先，我們需要更深入了解 LLM 的訓(xùn)練過程。

開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽,前沿技術(shù),開源,LLM,語言模型,llama

訓(xùn)練 pipeline：如下圖所示，LLM 的訓(xùn)練過程分為多個步驟。首先，我們需要在大量原始文本上對模型進(jìn)行預(yù)訓(xùn)練。其次，我們需要使用 SFT 和 RLHF 等技術(shù)對模型進(jìn)行對齊。最后，通過進(jìn)一步的微調(diào)或在上下文中學(xué)習(xí)，使 LLM 更好地適應(yīng)特定任務(wù)。

最近，強有力的實證證據(jù)表明：語言模型的大部分知識都是在預(yù)訓(xùn)練階段獲得。對齊過程只是教會了模型如何正確地格式化或顯化在預(yù)訓(xùn)練中獲得的知識。正如 LIMA 提出的，這個想法被稱為“表面對齊假設(shè)（Superficial Alignment Hypothesis）“。雖然這個假設(shè)看似與本文主題不完全相關(guān)，但我們從中學(xué)到了重要的一點：即經(jīng)過不充分預(yù)訓(xùn)練的模型不太可能通過微調(diào)或?qū)R“修復(fù)”。

“模型的知識和能力幾乎都是在預(yù)訓(xùn)練過程中獲得的，而對齊過程則教會了模型與用戶交互時應(yīng)使用的子分布格式?！?/em> ——引自 [3]

如何解決？鑒于初始開源 LLM 的質(zhì)量較差，如果要取得研究進(jìn)展，社區(qū)就必須從零開始創(chuàng)建高質(zhì)量的基礎(chǔ)模型，這一點很快就得到了明確。此外，這些模型需要在更多的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，以提升能力。然而，由于高昂的預(yù)訓(xùn)練成本（尤其在大量數(shù)據(jù)上執(zhí)行時），創(chuàng)建更好的開源基礎(chǔ)模型必須由資金充足的組織（如 Meta 或 MosaicML ）來承擔(dān)，他們可以負(fù)擔(dān)訓(xùn)練這些模型的成本，并將其免費提供給社區(qū)中的其他人使用。

2

創(chuàng)建更好的基礎(chǔ)模型

在開源 LLM 的早期發(fā)展階段，由于其質(zhì)量較差，未能得到廣泛的使用和探索，但這一問題很快就得到了解決。接下來，我們將回顧幾種模型，這些模型通過強大的預(yù)訓(xùn)練 LLM，改變了上述態(tài)勢，使開源 LLM 廣泛可用。

LLaMA：開源模型質(zhì)量的飛躍

LLaMA [1] 是最早發(fā)布的開源且高質(zhì)量的預(yù)訓(xùn)練 LLM 之一。但 LLaMA 并非單一模型，而是包含多個 LLM 的套件，其模型規(guī)模從 70 億到 650 億個參數(shù)不等。這些模型在性能和推理效率之間作了不同的權(quán)衡。盡管 LLaMA 不能商用（僅限于研究），但作為一個具有重要影響力的提案，它從多個方面推動了開源 LLM 的研究。

（引自[1]）

數(shù)據(jù)：受 Chinchilla [2]的啟發(fā)，LLaMA 模型是在一個超 1.4 萬億個文本詞元的語料庫上進(jìn)行預(yù)訓(xùn)練的。這個預(yù)訓(xùn)練數(shù)據(jù)集比之前的開源 LLM 要大得多。數(shù)據(jù)的來源和分布如上圖所示。有趣的是，LLaMA 僅使用公開可用的數(shù)據(jù)來源進(jìn)行預(yù)訓(xùn)練，這意味著，任何具備足夠計算能力的人都可以復(fù)制整個預(yù)訓(xùn)練過程。

“GPT-4從各種商業(yè)許可、創(chuàng)作且公開可用的數(shù)據(jù)來源中進(jìn)行學(xué)習(xí)，其中可能包括公開的個人信息?！?/em>——來自GPT-4博文

這種特性尤其令人向往，許多專有 LLM 使用的是不公開的內(nèi)部訓(xùn)練數(shù)據(jù)。簡而言之，LLaMA 從各個方面為提高 LLM 的透明度和開放性邁出了重要一步。

（引自[1]）

效果提升：與之前的模型相比，LLaMA 代表著開源 LLM 表現(xiàn)的重大飛躍。盡管模型表現(xiàn)仍落后于頂級的專有 LLM（如 ChatGPT 或 GPT-4 ），但其尚未對齊。值得注意的是，LLaMA-13B 與 GPT-3 [3]的表現(xiàn)相當(dāng)，而 LLaMA-65B 在多種情況下的表現(xiàn)都優(yōu)于 PaLM [4]，這表明 LLaMA 套件的表現(xiàn)與其他廣泛應(yīng)用的基礎(chǔ)模型相當(dāng)。詳細(xì)指標(biāo)請參考上方表格。

（引自[5, 6, 7, 8]）

開源模型的爆炸式增長：LLaMA 發(fā)布后最有趣的一點是隨之而來的開源 LLM 研究浪潮。LLaMA 模型的權(quán)重公開之后，開源研究社區(qū)迅速發(fā)布了各種不同的模型變體和軟件包。這些迭代包括從 LLaMA 的微調(diào)版到用于在筆記本電腦上高效運行任何 LLaMA 模型推理的 C++ 庫，真正展現(xiàn)出開源研究的優(yōu)勢。我們僅用了幾周時間，就從僅能通過 API 與這些強大模型交互，變?yōu)榭梢栽诠P記本電腦上運行它們！

MPT：高質(zhì)量、可商用且開源的LLM

(from [10])

盡管 LLaMA 給人留下了深刻印象，但該套件中的模型均不能商用——它們僅從研究角度具有價值。幸運的是，LLaMA 發(fā)布后很快被 MosaicML 開發(fā)并發(fā)布了可商用（采用 Apache 2.0 許可發(fā)布）的 MPT 套件。首先發(fā)布的是 MPT-7B [9]，它引起了廣泛關(guān)注（基本上是LLaMA-7B 的商用版）。實際上，在更大的 MPT-30B [10]模型發(fā)布之前，MPT-7B 在 HuggingFace 上獲得了超300萬次下載量！

(from [9, 10])

這兩個模型的主要區(qū)別在于：

它們使用略有不同的數(shù)據(jù)混合進(jìn)行預(yù)訓(xùn)練，請參考上圖。

MPT-30B 使用更長的上下文長度進(jìn)行訓(xùn)練，達(dá)到了8千個詞元。

然而，這兩個模型的表現(xiàn)都十分出色，適合商用，在人工智能社區(qū)廣受歡迎。

(from [9])

MPT是否達(dá)到了大眾的期待？盡管 LLaMA 顯著提升了開源 LLM 的 SOTA 表現(xiàn)，但 MPT 套件能夠與之媲美。特別是，LLaMA-7B 模型在多個標(biāo)準(zhǔn)基準(zhǔn)測試中的效果可與 MPT-7B 相媲美（可參考上圖）。此外，MPT-30B 模型效果也與 GPT-3 相當(dāng)。與類似規(guī)模的開源模型（如 LLaMA-30B 和 Falcon-40B）相比，MPT-30B 的表現(xiàn)稍顯遜色，具體詳見下圖。然而，MPT-30B 在編碼相關(guān)任務(wù)上表現(xiàn)更好，并且可以在單個 GPU 上進(jìn)行部署（通過量化技術(shù)）。

（引自 [10]）

MPT 變體：除預(yù)訓(xùn)練 MPT-7B 和 MPT-30B 模型之外，還發(fā)布了多種經(jīng)微調(diào)的 MPT 模型，如 instruct 和 chat 4 等版本。此外，通過在數(shù)據(jù)上微調(diào)，創(chuàng)建了“StoryWriter”版本的 MPT-7B 模型，該版本使用了 64K 詞元上下文長度的微調(diào)數(shù)據(jù)。相比微調(diào)，預(yù)訓(xùn)練 LLM 的成本相對較高，通過微調(diào)可以以較低成本創(chuàng)建各種不同的 MPT 變體。具體詳見下圖。

但不止于此！MPT 模型非常實用（尤其對于從事商業(yè)應(yīng)用的人士而言），除此之外，這些模型還搭載了一整套由 MosaicML 發(fā)布的完整軟件工具（即 LLM foundry）。這套開源代碼可用于 MPT 模型的預(yù)訓(xùn)練和微調(diào)，使 MPT 套件成為了極具價值的工具，可在各種專門的應(yīng)用場景中進(jìn)一步探索 LLM 的應(yīng)用。

Falcon：開源模型質(zhì)量的新高峰

（引自 [1]）

雖然在開源 LLM 領(lǐng)域已經(jīng)取得了明顯進(jìn)展，但相當(dāng)長的一段時間里，開源模型的表現(xiàn)仍落后于專有 LLM。然而，F(xiàn)alcon 套件的發(fā)布[11]首次真正實現(xiàn)了與專有 LLM 相媲美的質(zhì)量，為開源領(lǐng)域提供了可靠的替代選擇。Falcon提供了兩個變體——Falcon-7B 和 Falcon-40B。除商業(yè)許可之外，這些 Falcon 模型使用了一個龐大且經(jīng)精選的語料庫還進(jìn)行預(yù)訓(xùn)練，因此表現(xiàn)優(yōu)秀。值得一提的是，F(xiàn)alcon-40B 的 instruct 變體在 OpenLLM 排行榜上表現(xiàn)出色（明顯領(lǐng)先），這一優(yōu)勢持續(xù)了數(shù)月。

“通過對數(shù)據(jù)質(zhì)量和 LLM 現(xiàn)有觀念的挑戰(zhàn)，只要使用經(jīng)充分過濾（filtering ）和去重的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練，模型表現(xiàn)就能與使用精選數(shù)據(jù)訓(xùn)練的模型相媲美?！?/em> ——引自[12]

從網(wǎng)絡(luò)上整理數(shù)據(jù)：Falcon 模型在一個名為 RefinedWeb [12] 的巨大文本語料庫上進(jìn)行訓(xùn)練，其中包含超 5 萬億個詞元。實際上，F(xiàn)alcon-7B 和 Falcon-40B 的預(yù)訓(xùn)練僅使用了 RefinedWeb 數(shù)據(jù)集中的 1.5 萬億個詞元和 1 萬億個詞元。盡管大多數(shù) LLM 模型通常是在經(jīng)過精選的公共數(shù)據(jù)源上進(jìn)行預(yù)訓(xùn)練，但 Falcon 的開發(fā)者選擇利用網(wǎng)絡(luò)數(shù)據(jù)（即 CommonCrawl）構(gòu)建他們自己的預(yù)訓(xùn)練數(shù)據(jù)集。為了篩選這些數(shù)據(jù)，他們創(chuàng)造了一個全新的 pipeline，這個 pipeline 使用了簡潔有效的組件。可參考下圖獲取詳細(xì)信息。

（引自[12, 13]）

RefinedWeb 語料庫的例子表明，可以從網(wǎng)絡(luò)上有效管理大量高質(zhì)量文本數(shù)據(jù)（超出了之前探索的數(shù)據(jù)集規(guī)模）。經(jīng)過濾后，通過這些數(shù)據(jù)訓(xùn)練的模型效果甚至可以優(yōu)于通過精選數(shù)據(jù)源訓(xùn)練的同類模型。

（引自[12]）

上圖為 Falcon-7B 和 Falcon-40B 的具體訓(xùn)練數(shù)據(jù)集。值得注意的是，F(xiàn)alcon-7B 僅使用了英語數(shù)據(jù)進(jìn)行訓(xùn)練，而 Falcon-40B 使用了多種歐洲語言進(jìn)行預(yù)訓(xùn)練。

新的 SOTA。目前，尚未有任何關(guān)于 Falcon 模型的公開信息。因此，我們只能通過 OpenLLM 排行榜對這些模型進(jìn)行正式評估，其中 Falcon-40B 的表現(xiàn)引人注目，特別是 Falcon-40B-Instruct，它的表現(xiàn)明顯優(yōu)于其他模型，曾被認(rèn)為是 SOTA 模型。詳細(xì)信息可參考下圖。

（引自開源 LLM 排行榜）

從定性角度來說，一些業(yè)內(nèi)人士認(rèn)為，基于 LLaMA 的模型在效果上優(yōu)于 Falcon-40B。雖然我們需要了解不同的看法和見解，但這些觀點都帶有主觀性。在標(biāo)準(zhǔn)化自然語言基準(zhǔn)測試中，F(xiàn)alcon LLM 的表現(xiàn)非常出色，長期保持著開源模型中的 SOTA 表現(xiàn)。

LLaMA-2：當(dāng)前的 SOTA 模型

（引自[14]）

盡管 Falcon-40B 在一段時間內(nèi)曾是最先進(jìn)的開源 LLM，但最近發(fā)布的 LLaMA-2 系列模型取代了它的領(lǐng)先地位。與 LLAMA-1 類似，LLaMA-2 [14] 由幾個不同的 LLM 組成，參數(shù)大小從 70 億到 700 億不等，且僅使用公開可用的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。LLAMA-2 模型的預(yù)訓(xùn)練和微調(diào)版均已發(fā)布，但由于我們專注于開源基礎(chǔ)模型領(lǐng)域，因此本部分僅介紹了預(yù)訓(xùn)練模型。

“雖然有一些公開發(fā)布的預(yù)訓(xùn)練 LLM（如BLOOM）在質(zhì)量上能與閉源預(yù)訓(xùn)練的 LLM（如GPT-3和 Chinchilla）相匹敵，但這些模型都不適合作為 ChatGPT、BARD和 Claude 等閉源產(chǎn)品 LLM 的替代品?！?/em>——引自[14]

LLaMA-2 發(fā)布了一組在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的基礎(chǔ)模型，擁有更好的表現(xiàn)，這進(jìn)一步縮小了開源和閉源語言模型之間的差距。不久后我們將見證，這些模型雖無法與專有模型的表現(xiàn)相媲美，但它們比以往的任何開源模型的表現(xiàn)都更接近于專有模型。

（引自[14]）

不同之處？除了一些細(xì)微（但影響深遠(yuǎn)）的差別之外，LLaMA-2 采用的方法與其之前版本的模型非常相似。首先，LLaMA-2 模型預(yù)訓(xùn)練的數(shù)據(jù)量增加了 40% 以上，總計達(dá) 2 萬億個詞元，而 LLaMA-1 的數(shù)據(jù)量為 1.4 萬億個詞元。此外，LLaMA-2 模型使用稍長的上下文長度進(jìn)行訓(xùn)練，較大的模型在其底層架構(gòu)中使用分組查詢注意力 (GQA)。有趣的是，作者在[14]中指出，LLaMA-2 的預(yù)訓(xùn)練設(shè)置了知識更豐富的數(shù)據(jù)樣本源。這樣的改變是為了強調(diào)事實來源，增加知識量，減少幻覺。

（引自[15]）

什么是GQA？正如[15]中提出的，GQA 是一種對多頭自注意力機制（multi-headed self-attention）的修改，旨在提高 LLM 的推理效率。在典型的多頭自注意力機制中，存在N個查詢（query）、鍵（key）和值（value），形成了 N 個自注意力頭。而在 GQA 中，我們將這 N 個頭分為多個組，每個組內(nèi)共享鍵頭和值頭，如上圖所示。這種方法實際上是標(biāo)準(zhǔn)多頭自注意力和多查詢注意力之間的一種插值方法，通過在所有 N 個頭上的共享鍵和值的投影來實現(xiàn)。研究發(fā)現(xiàn)[15]，GQA 在保持多頭自注意力性能的同時，能夠顯著提高推理速度，與多查詢注意力相當(dāng)。

（引自[14]）

LLaMA-2 效果優(yōu)越。與流行的開源模型（如MPT、Falcon和LLaMA-1）相比，LLaMA-2 的表現(xiàn)十分出色。事實上，LLaMA-2-70B 在所有任務(wù)中都創(chuàng)造了開源 LLM 的新 SOTA，如上圖所示。但值得注意的是，LLaMA-2 在基于編碼的任務(wù)（例如 HumanEval）方面表現(xiàn)相對較差，這點受到了一定的批評。

與專有模型相比，LLaMA-2 基礎(chǔ)模型的表現(xiàn)相對較差。然而，這個比較是與經(jīng)過對齊的模型（如GPT-3.5、GPT-4等）進(jìn)行的。與其他流行的基礎(chǔ) LLM（如PaLM [4]）相比，LLaMA-2 的表現(xiàn)仍然非常出色。

商業(yè)許可。LLaMA-1 只能用于研究，而 LLaMA-2 則采用商業(yè)許可方式發(fā)布，這意味著像 MPT 和 Falcon 一樣，LLaMA-2 模型可以用于商業(yè)應(yīng)用。但 LLaMA-2 的許可并非標(biāo)準(zhǔn)的 Apache 2.0，它有一些注意事項需要從業(yè)者考慮。其中最重要的是，任何由 LLaMA-2 提供支持的擁有超過 7 億月活用戶的實體或應(yīng)用都必須從 Meta（元數(shù)據(jù)公司）獲得許可證后才能使用 LLaMA-2。

3

開源LLM的發(fā)展趨勢

鑒于 LLaMA、MPT、Falcon 和 LLaMA-2 在質(zhì)量上相比以往的模型有了較大突破，那么當(dāng)前的開源 LLM 為何能取得如此出色的表現(xiàn)呢？下文簡要解釋了這些模型的幾個關(guān)鍵特性，這些特性賦予了它們出色的表現(xiàn)，并推動了它們迅速受到關(guān)注。特別是，這些模型通過大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，并且它們特別強調(diào)推理效率。

更好的數(shù)據(jù)=更好的效果！

預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模是當(dāng)前開源 LLM 與之前模型的關(guān)鍵區(qū)別。雖然 OPT 和 BLOOM 等模型分別使用了 1800 億和 3410 億個詞元進(jìn)行訓(xùn)練，但當(dāng)前的開源模型使用了規(guī)模更大的預(yù)訓(xùn)練數(shù)據(jù)集：

LLaMA：1.4 萬億詞元

MPT：1 萬億詞元

Falcon：1-1.5 萬億詞元

LLaMA-2：2 萬億詞元

與之前的模型相比，當(dāng)前開源 LLM 的預(yù)訓(xùn)練數(shù)據(jù)量（幾乎）增加了一個數(shù)量級！事實上，這些預(yù)訓(xùn)練數(shù)據(jù)集的規(guī)模與專有 LLM 使用的數(shù)據(jù)集規(guī)模相當(dāng)。例如，MassiveText 數(shù)據(jù)集（用于訓(xùn)練 Gopher[13]和Chinchilla[2]）包含約 2.3 萬億個詞元，盡管在預(yù)訓(xùn)練時實際上只使用了其中的一個子集。見下圖。

擴展并非一切！除大幅增加預(yù)訓(xùn)練數(shù)據(jù)量外，目前的開源 LLM 還密切關(guān)注數(shù)據(jù)的構(gòu)成和質(zhì)量，這是效果提升的關(guān)鍵。例如，在 MPT 的訓(xùn)練數(shù)據(jù)集中增加了代碼的比例，從而提升了模型在與編程相關(guān)任務(wù)上的表現(xiàn)。此外，F(xiàn)alcon-40B 提出了一種全新 pipeline，用于從網(wǎng)絡(luò)上構(gòu)建高質(zhì)量的文本語料庫。而 LLaMA-2 則聲稱使用了更新的數(shù)據(jù) pipeline 和混合方式進(jìn)行預(yù)訓(xùn)練。總之，關(guān)注預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和組成似乎是近期開源 LLM 研究的共同趨勢。

“我們執(zhí)行了更嚴(yán)格的數(shù)據(jù)清理，更新了數(shù)據(jù)組合，增加了 40% 的總詞元，將上下文長度加倍，使用了分組查詢注意力 (GQA) ，以提高模型的推理可擴展性。”——（引自[14]）

優(yōu)化以加快推理速度

在選擇使用開源或?qū)Ｓ械?LLM 時，從業(yè)者需要考慮的不僅僅是效果。付費語言模型 API 可能在廣泛的任務(wù)范圍內(nèi)取得令人印象深刻的表現(xiàn)，但它們通常無法針對特定領(lǐng)域的數(shù)據(jù)進(jìn)行微調(diào)。然而，使用開源 LLM 構(gòu)建應(yīng)用程序時，我們需要考慮模型的部署成本?？紤]到托管 LLM 的困難，近期的開源模型更加注重快速和簡便的推理過程。實際上，MPT-30B [10] 經(jīng)過了專門設(shè)計，以便在單個 GPU 上進(jìn)行部署。

（引自[15][16][17]）

修改后的架構(gòu)。除了比大多數(shù)專有模型略小之外，當(dāng)前的開源 LLM 還采用了各種架構(gòu)技巧（如上圖所示）來加速推理過程，例如：

低精度層范數(shù)

Flash Attention

多查詢注意力

并行Transformer

分組查詢注意力

此外，當(dāng)前的開源 LLM 還采用了其他幾種架構(gòu)修改（例如 RoPE 嵌入、ALiBi、SwiGLU 激活等）來提高模型效果。當(dāng)前的開源 LLM 對純解碼器 Transformer 架構(gòu)進(jìn)行了簡單修改，以提高性能、加快推理速度。

4

結(jié)語

本文研究了開源 LLM 的發(fā)展歷程，從最初的低質(zhì)量模型（如BLOOM和OPT）到最近的強大基礎(chǔ)模型（如LLaMA和MPT）的發(fā)展演變。近期的模型主要關(guān)注更大、更優(yōu)質(zhì)的預(yù)訓(xùn)練數(shù)據(jù)集，從而顯著提高模型質(zhì)量。

由于高質(zhì)量的基礎(chǔ)模型是任何 LLM 應(yīng)用的基礎(chǔ)要求，這些模型對于提升開源 LLM 的受歡迎程度產(chǎn)生了重要影響。如今，任何從業(yè)者都可以利用這些強大的基礎(chǔ) LLM 進(jìn)行研究或商業(yè)應(yīng)用，而無需從零開始預(yù)訓(xùn)練模型，從而節(jié)省了大量資金和時間。

參考文獻(xiàn)（請上下滑動）?

[1] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models."?arXiv preprint arXiv:2302.13971?(2023).

[2] Hoffmann, Jordan, et al. "Training compute-optimal large language models."?arXiv preprint arXiv:2203.15556?(2022).

[3] Zhou, Chunting, et al. "Lima: Less is more for alignment."?arXiv preprint arXiv:2305.11206?(2023).

[4] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways."?arXiv preprint arXiv:2204.02311?(2022).

[5] Taori,? Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).

[6] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).

[7] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).

[8] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.

[9] “Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable Llms.”?MosaicML, 5 May 2023,?www.mosaicml.com/blog/mpt-7b.

[10] “MPT-30B: Raising the Bar for Open-Source Foundation Models.”?MosaicML, 22 June 2023,?www.mosaicml.com/blog/mpt-30b.

[11] “Introducing Falcon LLM”,?Technology Innovation Institute, 7 June 2023,?https://falconllm.tii.ae/.

[12] Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only."?arXiv preprint arXiv:2306.01116?(2023).

[13] Rae, Jack W., et al. "Scaling language models: Methods, analysis & insights from training gopher."?arXiv preprint arXiv:2112.11446?(2021).

[14] Touvron, Hugo, et al. "Llama 2: Open Foundation and Fine-Tuned Chat Models."?arXiv preprint arXiv:2307.09288?(2023).

[15] Ainslie, Joshua, et al. "GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints."?arXiv preprint arXiv:2305.13245?(2023).

[16] Vaswani, Ashish, et al. "Attention is all you need."?Advances in neural information processing systems?30 (2017).

[17] Dao, Tri, et al. "Flashattention: Fast and memory-efficient exact attention with io-awareness."?Advances in Neural Information Processing Systems?35 (2022): 16344-16359.

[18] Dao, Tri. "FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning."?arXiv preprint arXiv:2307.08691?(2023).

注釋：

1.GPT-4 的博客文章也提到語言模型掌握的大部分知識是來自預(yù)訓(xùn)練階段！

2. Chinchilla 論文 [2] 提供了一些有價值的見解，論文表明，當(dāng)我們同時增加模型預(yù)訓(xùn)練數(shù)據(jù)量時，增加語言模型大?。磪?shù)數(shù)量）是最有效的。

3.盡管 LLM 的應(yīng)用趨勢是更長的上下文長度，但大多數(shù)開源 LLM（例如 LLaMA、Falcon 和 MPT-7B）都是使用相對較短的上下文長度（僅 2K 個詞元）進(jìn)行訓(xùn)練的。

4.MPT 模型的 Chat 版不能商用，因為它們的訓(xùn)練數(shù)據(jù)無法商用（例如 ShareGPT）。

5.該模型最近在 OpenLLM 排行榜上被 LLaMA-2-70B 的不同微調(diào)版所取代。

6.LLaMA-2 的微調(diào)版是 LLaMa-2-Chat，它使用了監(jiān)督微調(diào) (SFT) 和來自人類反饋的強化學(xué)習(xí) (RLHF) 來針對聊天用例進(jìn)行優(yōu)化。

7.多種不同的LLM（甚至包括Falcon-40B）都使用多查詢注意力來提高推理速度。

8.順便一提，因為 FlashAttention-2 [18] 的發(fā)布，最近FlashAttention 變得更快了。

其他人都在看

GPU架構(gòu)與計算入門指南

為什么開源大模型終將勝出

LoRA和QLoRA微調(diào)語言大模型

OpenAI規(guī)模經(jīng)濟與第二護(hù)城河

開源語言大模型演進(jìn)史：早期革新

全面對比GPT-3.5與LLaMA 2微調(diào)

語言大模型推理性能工程：最佳實踐

試用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/文章來源地址http://www.zghlxwxcb.cn/news/detail-755567.html

到了這里，關(guān)于開源語言大模型演進(jìn)史：高質(zhì)量基礎(chǔ)模型競賽的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

萬元預(yù)算打造高質(zhì)量13B私有模型，Colossal-AI LLaMA-2 開源方案再升級
幾個月前，Colossal-AI 團隊僅利用8.5B token數(shù)據(jù)、15小時、數(shù)千元的訓(xùn)練成本，成功構(gòu)建了性能卓越的中文LLaMA-2 7B 版本模型，在多個評測榜單性能優(yōu)越。在原有訓(xùn)練方案的基礎(chǔ)上，Colossal-AI 團隊再次迭代，并通過構(gòu)建更為細(xì)致完善的數(shù)據(jù)體系，利用 25B token 的數(shù)據(jù)，打造了效
2024年01月20日
瀏覽(90)
每周編輯精選｜微軟開源 Orca-Math 高質(zhì)量數(shù)學(xué)數(shù)據(jù)集、清華大學(xué)研究團隊發(fā)布條件去噪擴散模型 SPDiff...
Orca-Math 是微軟研究院發(fā)布的數(shù)學(xué)推理模型，該模型展示了較小的專業(yè)模型在特定領(lǐng)域的價值，它們可以匹配甚至超越更大模型的性能。微軟近期開源了用于訓(xùn)練 Orca-Math 的 Orca-Math-200K 數(shù)學(xué)單詞問題數(shù)據(jù)集，現(xiàn)已在 hyper.ai 官網(wǎng)提供下載，快來體驗吧！ 3 月 11 日-3 月 15 日，
2024年03月22日
瀏覽(100)
基于Python的100+高質(zhì)量爬蟲開源項目（持續(xù)更新中）
以下是項目所使用的框架，不同的項目所使用的框架或許有不同，但都萬差不離： Scrapy：一個快速的高級Web爬蟲框架，可用于從網(wǎng)站中提取結(jié)構(gòu)化數(shù)據(jù)。 BeautifulSoup：一個用于從HTML和XML文件中提取數(shù)據(jù)的Python庫。 PySpider：一個輕量級，跨平臺并基于事件的Python爬蟲框架。 T
2024年01月16日
瀏覽(64)
開源 ChatFlow：讓人類設(shè)計高質(zhì)量流程，讓 ChatGPT 生成與復(fù)讀
太長不讀版：ChatFlow 作為一個正經(jīng)的開源項目，現(xiàn)在你可以在 ClickPrompt 上完成一切工作以外的活動：角色扮演、玩游戲、看小說、AI 畫畫等等，如下圖所示：于是，我們抽取 ClickPrompt 出了的核心能力，構(gòu)建了一個新的框架：ChatFlow —— 一個圍繞 ChatGPT 構(gòu)建的簡易工作流引擎
2023年04月21日
瀏覽(640)
壽險公司通過開源治理保障數(shù)字創(chuàng)新，安全打通高質(zhì)量服務(wù)新通道
某壽險公司致力于為消費者提供人性化的產(chǎn)品和服務(wù)，在中國保險市場中始終保持前列。該壽險公司以挖掘和滿足客戶需求為出發(fā)點，從產(chǎn)品開發(fā)、渠道銷售、運營流程和售后服務(wù)等各環(huán)節(jié)，借助數(shù)字化工具，不斷地努力探索并提升服務(wù)品質(zhì)。該壽險公司借助數(shù)字科技力量，
2024年02月03日
瀏覽(100)
Go語言——【高質(zhì)量編程 | 代碼規(guī)范】
作者：非妃是公主專欄：《Golang》博客主頁：https://blog.csdn.net/myf_666 個性簽：順境不惰，逆境不餒，以心制境，萬事可成。——曾國藩高質(zhì)量編程，就是指編寫的代碼能夠達(dá)到正確可靠的同時，具備簡潔清晰、結(jié)構(gòu)明了等特點，可以讓團隊成員很快的上手。具體來說，有
2024年02月01日
瀏覽(253)
解讀科學(xué)計算助力行業(yè)高質(zhì)量發(fā)展｜2023 開放原子全球開源峰會科學(xué)智能分論壇即將啟幕
諾貝爾獎獲得者威爾遜曾說過，現(xiàn)代科學(xué)研究的三大支柱：科學(xué)實驗、理論研究、科學(xué)計算。深度學(xué)習(xí)和科學(xué)模型的結(jié)合，將會給傳統(tǒng)科學(xué)領(lǐng)域帶來新的機遇，并推動科研范式的創(chuàng)新。人工智能在科學(xué)計算領(lǐng)域有哪些問題和突破？如何更高效地運用 AI 為科學(xué)研究提供助力？需
2024年02月07日
瀏覽(20)
螢火跑模型 | 高性能 Stable Diffusion 助力高質(zhì)量 AI 繪圖
Stable Diffusion AI 繪畫最近成功破圈，成了炙手可熱的熱門話題。DALLE，GLIDE，Stable Diffusion 等基于擴散機制的生成模型讓 AI 作圖發(fā)生質(zhì)變，讓人們看到了“AI 轉(zhuǎn)成生產(chǎn)力”的曙光。在這些擴散模型中，Stable Diffusion 以其優(yōu)秀的效果和開源的權(quán)重成為了其中的代表，受到廣泛的關(guān)
2024年02月09日
瀏覽(24)
使用Amazon SageMaker構(gòu)建高質(zhì)量AI作畫模型Stable Diffusion
近來，隨著新一代 AI 大型聊天機器人 ChatGPT 火遍科技圈，人工智能生成內(nèi)容( Artificial Intelligence Generated Content , AIGC )這一領(lǐng)域開始受到學(xué)術(shù)界、工業(yè)界甚至普通用戶的廣泛關(guān)注。 AIGC 憑借其獨特的“創(chuàng)造力”與人類無法企及的創(chuàng)作生成速度掀起了一股人工智能狂潮。但是，利
2023年04月14日
瀏覽(29)
AI Code Translator —— 能夠?qū)崿F(xiàn)高質(zhì)量的自動編程語言轉(zhuǎn)換工具
https://github.com/mckaywrigley/ai-code-translator AI Code Translator —— 是一款基于大型語言模型的代碼翻譯工具，同時也是一款顛覆性的編程語言翻譯工具,它基于先進(jìn)的機器學(xué)習(xí)技術(shù)和大規(guī)模語料庫訓(xùn)練而成,能夠?qū)崿F(xiàn)高質(zhì)量的自動編程語言轉(zhuǎn)換。這款工具最大的突破在于翻譯速度快且
2024年02月04日
瀏覽(63)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

^{<video id="kiz5n"><abbr id="kiz5n"></abbr></video>}