在LLM領域,開源究竟意味著什么?假設開源社區(qū)擁有了真正的開源LLM,其權重、數據集、代碼和基礎設施都可公開獲取,我們又將從中獲得哪些重要收益?
本文作者為Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的聯合創(chuàng)始人及CEO,后者是加州大學伯克利分校的教授和Run LLM聯合創(chuàng)始人,他們就開源的重要性與核心價值進行了探討。
(本文由OneFlow編譯發(fā)布,轉載請聯系授權。原文:https://generatingconversation.substack.com/p/why-open-source-llms-matter)
作者 | Vikram Sreekanti & Joseph E. Gonzalez
OneFlow編譯
翻譯|宛子琳
開源確實令人著迷。作為擁有悠久開源傳統(tǒng)的伯克利大學的一員,我們普遍都是開源軟件的忠實擁護者。但坦白來講,人們關于開源的眾多討論都顯得極其模糊。開源的倡導者往往強調開源LLM毋庸置疑的優(yōu)勢,卻鮮有說明他們希望看到的具體內容。
這促使我們開始思考開源LLM的重要性,以及它們可能帶來的益處。
但首先讓我們錨定一個具體的討論主題,對于LLM來說,究竟什么是開源?以下是幾種定義:
-
公開可用的權重:LLaMa 2和Mistral這樣的模型屬于這一類別。這些模型基于相當寬松的許可證發(fā)布構成模型的權重文件,以便用戶能夠獲取這些模型并進行自定義部署。
-
公開可用的數據集:據我們所知,目前還沒有任何主流的開源LLM這樣做,但公開模型數據將會產生重要影響,它將使社區(qū)了解模型的潛在偏見和缺陷。
-
公開可用的訓練代碼及基礎設施:迄今為止,大部分大模型構建者都將這一點嚴格保密。因為模型訓練過程中包含大量的配置參數,再加上人類反饋強化學習(RLHF)的過程,因此公開這類信息有助于社區(qū)從基本原理層面理解模型。
正如其他地方所討論的那樣,數據集的創(chuàng)建過程和嵌入在模型訓練過程中的專業(yè)知識都被嚴格保密。主流的開源模型供應商很少(或不)發(fā)布有關用戶數據集的信息,這讓開源社區(qū)很失望。因此,到目前為止,我們主要見到的是公開可用的模型權重,但關于數據集、訓練代碼和基礎設施的信息卻少之又少。
讓我們回到最初的問題。假設開源倡導者贏得了這場戰(zhàn)役,如果我們擁有真正開源的語言大模型,其權重、數據集以及代碼和基礎設施都可獲取,那么我們將從中獲得哪些重要價值?
-
社區(qū)監(jiān)督: 了解模型的盲點和缺陷對于未來的模型改進和對齊研究至關重要。通過簡單地與GPT這樣的模型進行聊天交互或使用其API,就已經能夠發(fā)現很多盲點,研究人員可以通過托管模型來推動邊界,用于測試策略。在洞察模型的偏見方面,模型底層數據集的可見性能否提供有價值的見解,這一點仍有待探討。顯然,模型構建者所做的編輯選擇(如刪除或包含數據)十分重要;然而,鑒于數據使用的大規(guī)模投資和潛在的法律風險,我們看到這些數據集完整公開的可能性非常小(除非政府干預)。
-
重構模型:在缺乏相關數據集和代碼信息的情況下,這一點讓開源社區(qū)感到非常沮喪。理想情況下,社區(qū)通過重新創(chuàng)建現有模型可以讓研究人員嘗試不同的模型參數和對齊方式。但現實情況是,這些模型的規(guī)模使得重新創(chuàng)建變得不大可能,甚至完全不可行。僅僅是訓練所需的GPU成本就令人望而卻步,而RLHF所需的基礎設施和人力成本更是難以負擔。與普通的存儲基礎設施不同,用戶實際上可以使用Minio來代替AWS S3,但重新創(chuàng)建模型所需的硬件和時間成本使得這一有效的實驗變得無法完成。社區(qū)所付出的努力不足以重新創(chuàng)建GPT(甚至是LLaMA)規(guī)模級別的模型———公共部門或大型研究機構可能會取得一定進展,但自下而上的實驗仍然不可能實現。對齊研究很可能必須被視為現有模型的附加內容。
-
自托管與定制部署:這是一個關注熱點,盡管在某些高度敏感的安全場景下,企業(yè)可能需要定制的大模型。我們確信OpenAI和Azure(以及相應的AWS + Athropic和GCP)會解決這一問題。由于模型質量存在巨大差距,用戶如果可以安全部署私有模型(特別是具備適當的數據共享保護),那么他們選擇開源LLM的意愿就會降低。就在本周,我們與一家市值約1000億美元的科技公司進行了交流,他們正與一家主要的云服務供應商洽談共享私人信息的條款,用于云服務供應商的LLM部署?,F實情況是,主流的模型供應商具備規(guī)模經濟與高效部署的優(yōu)勢,其他的競爭對手難以超越。
-
專有化:這在我們在之前的文章中提到過,也是最具說服力的觀點。開源LLM模型是開發(fā)專有化模型的良好基礎。雖然GPT微調API功能強大,但它僅能通過LoRA進行微調(而不是完全權重更新),并且限制用戶應用更高級的模型專有技術(如RLHF或RLCF),這些技術在專有化模型日益成熟時很可能極具價值。這就是未來幾年中開源模型最有可能蓬勃發(fā)展的領域。
開源模型在專有化方面已經十分強大。有人指出,Code-LLaMA 34B已經是目前最好的代碼模型,對此我們非常贊同!這是領域專用模型的一個絕佳的成功案例。不幸的是,由于訓練模型所需的GPU和時間投資,微調可能仍然非常昂貴。幸運的是,我們已經從許多實際案例中得知(包括我們自己的工作中),微調模型不需要達到GPT-4等模型的規(guī)模和通用性。
這一思路引出一個顯而易見的的結論:開源模型不需要變得更好,只需要變得更小和更專用。此前的文章曾指出,開源LLM需要在成本和規(guī)模方面提升大約兩個量級,才能趕上GPT。如果它們能夠跨越這一障礙,就可以提高企業(yè)對模型進行有效專用化的水準,并為開源軟件的發(fā)展提供一條可行的路徑。
我們對開源的價值有著堅定的信念,但結果很明顯,開源模型無法與托管的通用模型的質量相抗衡。不過,這并不意味著失敗,而是新的機會。做微調模型的用戶并不需要最通用的模型,而是需要一個能夠為他們的任務進行良好訓練的模型。如果開源模型能夠在輕量級的同時保持高質量,這就是未來市場的機會所在,將會有一個嶄新的專有化領域靜候開啟。
其他人都在看
-
GPU架構與計算入門指南
-
開源語言大模型的正確姿勢
-
為什么開源大模型終將勝出
-
LoRA和QLoRA微調語言大模型
-
OpenAI規(guī)模經濟與第二護城河
-
全面對比GPT-3.5與LLaMA 2微調
-
語言大模型推理性能工程:最佳實踐文章來源:http://www.zghlxwxcb.cn/news/detail-753320.html
試用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/文章來源地址http://www.zghlxwxcb.cn/news/detail-753320.html
到了這里,關于為什么開源語言大模型很重要?的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!