国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

為什么開源語言大模型很重要?

這篇具有很好參考價值的文章主要介紹了為什么開源語言大模型很重要?。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

為什么開源語言大模型很重要?,業(yè)界觀點,開源,大模型,語言模型,LLM,llama

在LLM領域,開源究竟意味著什么?假設開源社區(qū)擁有了真正的開源LLM,其權重、數據集、代碼和基礎設施都可公開獲取,我們又將從中獲得哪些重要收益?

本文作者為Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的聯合創(chuàng)始人及CEO,后者是加州大學伯克利分校的教授和Run LLM聯合創(chuàng)始人,他們就開源的重要性與核心價值進行了探討。

(本文由OneFlow編譯發(fā)布,轉載請聯系授權。原文:https://generatingconversation.substack.com/p/why-open-source-llms-matter)

作者 | Vikram Sreekanti & Joseph E. Gonzalez

OneFlow編譯

翻譯|宛子琳

開源確實令人著迷。作為擁有悠久開源傳統(tǒng)的伯克利大學的一員,我們普遍都是開源軟件的忠實擁護者。但坦白來講,人們關于開源的眾多討論都顯得極其模糊。開源的倡導者往往強調開源LLM毋庸置疑的優(yōu)勢,卻鮮有說明他們希望看到的具體內容。

這促使我們開始思考開源LLM的重要性,以及它們可能帶來的益處。

但首先讓我們錨定一個具體的討論主題,對于LLM來說,究竟什么是開源?以下是幾種定義:

  • 公開可用的權重:LLaMa 2和Mistral這樣的模型屬于這一類別。這些模型基于相當寬松的許可證發(fā)布構成模型的權重文件,以便用戶能夠獲取這些模型并進行自定義部署。

  • 公開可用的數據集:據我們所知,目前還沒有任何主流的開源LLM這樣做,但公開模型數據將會產生重要影響,它將使社區(qū)了解模型的潛在偏見和缺陷。

  • 公開可用的訓練代碼及基礎設施:迄今為止,大部分大模型構建者都將這一點嚴格保密。因為模型訓練過程中包含大量的配置參數,再加上人類反饋強化學習(RLHF)的過程,因此公開這類信息有助于社區(qū)從基本原理層面理解模型。

正如其他地方所討論的那樣,數據集的創(chuàng)建過程和嵌入在模型訓練過程中的專業(yè)知識都被嚴格保密。主流的開源模型供應商很少(或不)發(fā)布有關用戶數據集的信息,這讓開源社區(qū)很失望。因此,到目前為止,我們主要見到的是公開可用的模型權重,但關于數據集、訓練代碼和基礎設施的信息卻少之又少。

讓我們回到最初的問題。假設開源倡導者贏得了這場戰(zhàn)役,如果我們擁有真正開源的語言大模型,其權重、數據集以及代碼和基礎設施都可獲取,那么我們將從中獲得哪些重要價值?

  • 社區(qū)監(jiān)督: 了解模型的盲點和缺陷對于未來的模型改進和對齊研究至關重要。通過簡單地與GPT這樣的模型進行聊天交互或使用其API,就已經能夠發(fā)現很多盲點,研究人員可以通過托管模型來推動邊界,用于測試策略。在洞察模型的偏見方面,模型底層數據集的可見性能否提供有價值的見解,這一點仍有待探討。顯然,模型構建者所做的編輯選擇(如刪除或包含數據)十分重要;然而,鑒于數據使用的大規(guī)模投資和潛在的法律風險,我們看到這些數據集完整公開的可能性非常小(除非政府干預)。

  • 重構模型:在缺乏相關數據集和代碼信息的情況下,這一點讓開源社區(qū)感到非常沮喪。理想情況下,社區(qū)通過重新創(chuàng)建現有模型可以讓研究人員嘗試不同的模型參數和對齊方式。但現實情況是,這些模型的規(guī)模使得重新創(chuàng)建變得不大可能,甚至完全不可行。僅僅是訓練所需的GPU成本就令人望而卻步,而RLHF所需的基礎設施和人力成本更是難以負擔。與普通的存儲基礎設施不同,用戶實際上可以使用Minio來代替AWS S3,但重新創(chuàng)建模型所需的硬件和時間成本使得這一有效的實驗變得無法完成。社區(qū)所付出的努力不足以重新創(chuàng)建GPT(甚至是LLaMA)規(guī)模級別的模型———公共部門或大型研究機構可能會取得一定進展,但自下而上的實驗仍然不可能實現。對齊研究很可能必須被視為現有模型的附加內容。

  • 自托管與定制部署:這是一個關注熱點,盡管在某些高度敏感的安全場景下,企業(yè)可能需要定制的大模型。我們確信OpenAI和Azure(以及相應的AWS + Athropic和GCP)會解決這一問題。由于模型質量存在巨大差距,用戶如果可以安全部署私有模型(特別是具備適當的數據共享保護),那么他們選擇開源LLM的意愿就會降低。就在本周,我們與一家市值約1000億美元的科技公司進行了交流,他們正與一家主要的云服務供應商洽談共享私人信息的條款,用于云服務供應商的LLM部署?,F實情況是,主流的模型供應商具備規(guī)模經濟與高效部署的優(yōu)勢,其他的競爭對手難以超越。

  • 專有化:這在我們在之前的文章中提到過,也是最具說服力的觀點。開源LLM模型是開發(fā)專有化模型的良好基礎。雖然GPT微調API功能強大,但它僅能通過LoRA進行微調(而不是完全權重更新),并且限制用戶應用更高級的模型專有技術(如RLHF或RLCF),這些技術在專有化模型日益成熟時很可能極具價值。這就是未來幾年中開源模型最有可能蓬勃發(fā)展的領域。

開源模型在專有化方面已經十分強大。有人指出,Code-LLaMA 34B已經是目前最好的代碼模型,對此我們非常贊同!這是領域專用模型的一個絕佳的成功案例。不幸的是,由于訓練模型所需的GPU和時間投資,微調可能仍然非常昂貴。幸運的是,我們已經從許多實際案例中得知(包括我們自己的工作中),微調模型不需要達到GPT-4等模型的規(guī)模和通用性。

這一思路引出一個顯而易見的的結論:開源模型不需要變得更好,只需要變得更小和更專用。此前的文章曾指出,開源LLM需要在成本和規(guī)模方面提升大約兩個量級,才能趕上GPT。如果它們能夠跨越這一障礙,就可以提高企業(yè)對模型進行有效專用化的水準,并為開源軟件的發(fā)展提供一條可行的路徑。

我們對開源的價值有著堅定的信念,但結果很明顯,開源模型無法與托管的通用模型的質量相抗衡。不過,這并不意味著失敗,而是新的機會。做微調模型的用戶并不需要最通用的模型,而是需要一個能夠為他們的任務進行良好訓練的模型。如果開源模型能夠在輕量級的同時保持高質量,這就是未來市場的機會所在,將會有一個嶄新的專有化領域靜候開啟。

其他人都在看

  • GPU架構與計算入門指南

  • 開源語言大模型的正確姿勢

  • 為什么開源大模型終將勝出

  • LoRA和QLoRA微調語言大模型

  • OpenAI規(guī)模經濟與第二護城河

  • 全面對比GPT-3.5與LLaMA 2微調

  • 語言大模型推理性能工程:最佳實踐

試用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/文章來源地址http://www.zghlxwxcb.cn/news/detail-753320.html

到了這里,關于為什么開源語言大模型很重要?的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • AIGC基礎:大型語言模型 (LLM) 為什么使用向量數據庫,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是將數據(例如文本、圖像或代碼)轉換為高維向量的數值表示。這些向量捕捉了數據點之間的語義含義和關系??梢詫⑵淅斫鉃閷碗s數據翻譯成 LLM 可以理解的語言。 為什么有用?原始數據之間的相似性反映在高維空間中對應向量之間的距離上。

    2024年02月21日
    瀏覽(101)
  • 大數據為什么如此重要?

    大數據為什么如此重要?

    簡單來說,大數據就是結構化的傳統(tǒng)數據再加上非結構化的新數據。那么傳統(tǒng)數據和新數據又是什么呢?傳統(tǒng)數據就是IT業(yè)務系統(tǒng)里面的數據,如客戶資料、財務數據等。這些數據是結構化的,量也不是特別大,一般只是TB級。對比傳統(tǒng)數據,還有一種叫“新數據”,是來源于

    2024年02月08日
    瀏覽(21)
  • 語言模型ChatGPT,為什么能引領各行各業(yè)的AI技術革命

    語言模型ChatGPT,為什么能引領各行各業(yè)的AI技術革命

    為什么ChatGPT這樣一個語言模型的發(fā)展能引發(fā)所有行業(yè)的AI技術革命呢? 答案就在于它能理解我們的自然語言, 并能將我們的語言轉換成計算機能夠完全理解的特征。 ChatGPT之所以能引領技術革命,關鍵在于它能理解我們的自然語言,并能將我們的語言轉換成計算機能夠完全理

    2023年04月16日
    瀏覽(25)
  • 什么是可視化編程?為什么它如此重要?

    什么是可視化編程?為什么它如此重要?

    可視化編程,又叫可視化程序設計,一直以來就是備受討論的“熱門技術”。一方面,程序員抵觸它,覺得它不如用代碼開發(fā)。另一方面,對于產品經理等稍微懂點開發(fā)的業(yè)余人員,它確實能提供價值。所以,它到底是什么呢?本文將從可視化編程的定義、應用、優(yōu)勢等三個

    2024年02月12日
    瀏覽(19)
  • 事務的ACID屬性是什么?為什么它們很重要?

    在現代的數據庫和事務處理系統(tǒng)中,事務處理是一項非常重要的技術。在數據庫中,事務是指一組被視為單個邏輯操作單元的SQL語句序列,它們要么全部成功執(zhí)行,要么全部不執(zhí)行。事務可以確保數據庫在執(zhí)行時保持一致性和可靠性。ACID屬性是事務處理系統(tǒng)中的四個基本屬性

    2024年01月18日
    瀏覽(28)
  • 【API 管理】什么是 API 管理,為什么它很重要?

    【API 管理】什么是 API 管理,為什么它很重要?

    當今復雜的數字生態(tài)系統(tǒng)由許多相互關聯的部分組成。API 作為看門人和連接器在其中發(fā)揮著關鍵作用——提供了許多最終用戶甚至沒有注意到的自動化機會和效率。 企業(yè)密切關注 API。它們對于應用程序、數據和各種客戶交互的功能至關重要。 這使得 API 管理成為幾乎每個部

    2024年01月19日
    瀏覽(18)
  • 為什么服務映射對于微服務安全至關重要

    為什么服務映射對于微服務安全至關重要

    在復雜的微服務世界中,安全性至關重要。這些服務的松散耦合、分布式特性以及它們之間不斷的相互通信不僅增加了潛在的攻擊面,而且還給身份驗證、授權、配置管理和管理整體復雜性帶來了挑戰(zhàn)。 在這些挑戰(zhàn)中,服務映射成為提供微服務架構全景的關鍵過程。它有助于

    2024年02月03日
    瀏覽(22)
  • DevSecOps端到端的安全能力構建為什么重要?

    DevSecOps端到端的安全能力構建為什么重要?

    2012年,Gartner首次提出DevSecOps概念,旨在將安全性嵌入開發(fā)過程中的每個部分;十年后,DevSecOps已經成為端到端安全能力構建的事實標準。所以,在了解DevSecOps為什么重要以及如何落地之前,我們先從軟件開發(fā)的角度弄明白什么是DevOps。 軟件開發(fā)進入現代化之旅 回望過去,軟

    2024年02月03日
    瀏覽(18)
  • 網絡審計:為什么定期檢查您的網絡很重要

    本文分享自天翼云開發(fā)者社區(qū)《網絡審計:為什么定期檢查您的網絡很重要》,作者:易乾 在數字化時代,網絡安全成為組織和個人必須面對的重要挑戰(zhàn)。網絡審計是一種關鍵的安全措施,通過定期檢查和評估網絡系統(tǒng)的安全性,幫助發(fā)現潛在的安全漏洞和弱點,從而防止數

    2024年04月17日
    瀏覽(19)
  • 【人工智能】為什么說大語言模型能力遵循規(guī)模理論 Scaling Law(即模型能力隨著訓練計算量增加而提升) ?

    目錄 為什么說大語言模型能力遵循規(guī)模理論 Scaling Law(即模型能力隨著訓練計算量增加而提升) ?

    2024年03月25日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包