国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

推演語言模型的大小與計算開銷

這篇具有很好參考價值的文章主要介紹了推演語言模型的大小與計算開銷。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

推演語言模型的大小與計算開銷

2020年,OpenAI提出了在增加模型尺寸與提高模型性能之間的擴展定律,指出人們應(yīng)該將大部分預(yù)算用于擴大模型規(guī)模。這篇論文直接推動了增大模型規(guī)模的浪潮。然而,在預(yù)算和內(nèi)存有限的情況下,盲目擴大模型規(guī)模并不是提升模型性能的最佳選擇。
?

2022年,DeepMind團隊發(fā)表了一篇論文(https://arxiv.org/pdf/2203.15556.pdf),文中對比了模型大小和訓(xùn)練數(shù)據(jù),最終結(jié)論是:多數(shù)語言模型明顯訓(xùn)練不足。也就是說,在不增加模型大小的情況下,在更大的數(shù)據(jù)集上訓(xùn)練模型將受益匪淺。文中,DeepMind團隊訓(xùn)練了一個相對較小的LLM,名為Chinchilla,這個模型只有700億個參數(shù),但卻有1.4萬億個訓(xùn)練token。經(jīng)過訓(xùn)練,Chinchilla模型的性能超越了諸如GPT-3、Gopher、Jurassic-1和MT-NLG等更大的語言模型,這些語言模型的參數(shù)都在1750億-5300億之間,但訓(xùn)練token卻在2700億-3000億之間。


更小的模型參數(shù)意味著更低的推理成本和更小的內(nèi)存占用,實際上,對于大部分用例來說,小型語言模型的性價比更高。本文就從數(shù)學(xué)角度推算了為何在更多token上訓(xùn)練更小的LLM是更優(yōu)選擇。(以下內(nèi)容在遵循CC BY-NC-SA 4.0協(xié)議的基礎(chǔ)上由OneFlow編譯發(fā)布,譯文轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。原文:https://www.harmdevries.com/post/model-size-vs-compute-overhead/)

作者|Harm de Vries

OneFlow編譯

翻譯|楊婷、徐佳渝

當(dāng)我們使用大型計算集群來訓(xùn)練大型語言模型(LLM),通常需要考慮計算(資源)預(yù)算的分配問題。具體來說,就是考慮如何確定模型參數(shù)的數(shù)量N及訓(xùn)練token數(shù)量D。

我們可以利用擴展定律(scaling laws)來獲得相關(guān)指導(dǎo),既可以在給定的計算(資源)預(yù)算C的條件下,如何把C分配給參數(shù)數(shù)量推演語言模型的大小與計算開銷和訓(xùn)練token數(shù)量推演語言模型的大小與計算開銷從而使模型達(dá)到最佳性能;也可以在給定模型性能的條件下,平衡參數(shù)數(shù)據(jù)量N和訓(xùn)練token數(shù)量D,從而使得計算預(yù)算C最小,我們可以把計算預(yù)算C最小的LLM稱為計算量最優(yōu)的LMM。

然而,對大多數(shù)用例而言,我們不一定要去訓(xùn)練計算量最優(yōu)的LLM,而應(yīng)投入一定的額外計算(資源)來訓(xùn)練一個同等性能但更小的模型。小型模型的推理速度更快同時推理價格也更低,對GPU資源有限的開發(fā)人員和研究人員來說運行也更容易。


盡管許多LLM從業(yè)者訓(xùn)練模型的token數(shù)量比Chinchilla擴展定律(譯者注:Hoffmann等人(2022)重新審視了Kaplan等人的擴展定律。表明用較小的模型對更多數(shù)據(jù)進(jìn)行訓(xùn)練可能更有效,從而產(chǎn)生了參數(shù)效率提高的70B參數(shù)模型Chinchilla)建議的token數(shù)量多得多,但不是所有人員都清楚擴展定律為何對模型訓(xùn)練有幫助,它能讓我們確定可以訓(xùn)練出多小的模型以及需要多少額外的計算(資源)。

本篇博客將概述如何推導(dǎo)模型大小與計算(資源)額外開銷之間的權(quán)衡(trade-off)關(guān)系,同時揭示了有辦法在最小化額外開銷的條件下可以大大縮減計算量最優(yōu)模型的大小。然而,如果模型大小的縮減超出一定閾值,即使增加計算資源,也無法維持特定的模型性能,我們可以把這個模型的閾值稱之為臨界模型大小(critical model size)。

我的分析表明,臨界模型大小大約降低到計算量最優(yōu)模型大小的30%,而只增加了100%的額外計算開銷。值得注意的是,近來的模型尚未達(dá)到這一點,例如訓(xùn)練了1T個token的LLaMa-7B模型,這表明訓(xùn)練“更小”的LLM仍有充足的空間,但需要延長訓(xùn)練時間。

?1

回顧Chinchilla擴展定律

根據(jù)Chinchilla評估擴展定律的第三種方法,作者認(rèn)為損失可以建模為參數(shù)數(shù)量和訓(xùn)練所用token數(shù)量的函數(shù):文章來源地址http://www.zghlxwxcb.cn/news/detail-463292.html

到了這里,關(guān)于推演語言模型的大小與計算開銷的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python使用OpenAI 和大型語言模型對話PDF和圖像文本

    本文首先介紹文件文本嵌入方法及代碼實現(xiàn),然后介紹和代碼實現(xiàn)提取PDF和圖像文本應(yīng)用于大型語言模型。在此基礎(chǔ)上,構(gòu)建回答任何問題的人工智能助手。 文本嵌入是自然語言處理(NLP)領(lǐng)域的重要工具。它們是文本的數(shù)字表示,其中每個單詞或短語都表示為實數(shù)的密集向

    2024年02月14日
    瀏覽(21)
  • OpenAI開發(fā)系列(二):大語言模型發(fā)展史及Transformer架構(gòu)詳解

    OpenAI開發(fā)系列(二):大語言模型發(fā)展史及Transformer架構(gòu)詳解

    全文共1.8w余字,預(yù)計閱讀時間約60分鐘 | 滿滿干貨,建議收藏! 在2020年秋季,GPT-3因其在社交媒體上病毒式的傳播而引發(fā)了廣泛關(guān)注。這款擁有超過1.75億參數(shù)和每秒運行成本達(dá)到100萬美元的大型語言模型(Large Language Models,LLMs)開啟了自然語言處理(NLP)領(lǐng)域的新紀(jì)元。

    2024年02月07日
    瀏覽(28)
  • C語言如何計算結(jié)構(gòu)體大?。ńY(jié)構(gòu)體的內(nèi)存對齊)

    C語言如何計算結(jié)構(gòu)體大?。ńY(jié)構(gòu)體的內(nèi)存對齊)

    結(jié)構(gòu)體的內(nèi)存對齊是有關(guān)結(jié)構(gòu)體內(nèi)容的很重要一個知識點,主要考察方式是計算結(jié)構(gòu)體的字節(jié)大小。 當(dāng)我們對計算結(jié)構(gòu)體一無所知,我們不妨自己思索如何計算,是不是直接計算結(jié)構(gòu)體成員變量占用內(nèi)存的大小呢? 那我們先舉個例子 ?觀察發(fā)現(xiàn)結(jié)構(gòu)體的大小計算跟我們想的

    2024年02月16日
    瀏覽(21)
  • EasyLLM:簡化語言模型處理,實現(xiàn) OpenAI 和 Hugging Face 客戶端的無縫切換

    在這短短不到一年的時間里,國內(nèi)外涌現(xiàn)的大型語言模型(LLM)可謂是百花齊放,不管是開源還是閉源都出現(xiàn)了一些非常優(yōu)秀的模型,然而在利用LLM進(jìn)行應(yīng)用開發(fā)的時候,會發(fā)現(xiàn)每個模型從部署、到訓(xùn)練、微調(diào)、API接口開發(fā)、Prompt提示詞格式等方面都存在或多或少的差異,導(dǎo)

    2024年02月13日
    瀏覽(20)
  • OpenAI私有自然語言處理模型、ChatGPT官方模型、百度智能云UNIT模型定制三者的使用方式、應(yīng)用場景及區(qū)別

    OpenAI私有自然語言處理模型、ChatGPT官方模型、百度智能云UNIT模型定制三者的使用方式、應(yīng)用場景及區(qū)別

    目錄 前言 1、ChatGPT私有自然語言模型數(shù)據(jù)響應(yīng) 1.1、私有模型列表 1.2、搭建屬于自己的 WEB AI 應(yīng)用 1.3、模型介紹及使用場景 1.3.1、text-embedding-ada-002模型 1.3.2、davinci模型 2、ChatGPT官方模型 2.1、OpenAI GPT-4介紹 2.2、能力 2.3、優(yōu)勢 2.4、官方模型案列 2.4.1、列出所有模型列表 2.4.2、

    2024年02月07日
    瀏覽(86)
  • 【C語言】什么是結(jié)構(gòu)體內(nèi)存對齊?結(jié)構(gòu)體的大小怎么計算?

    【C語言】什么是結(jié)構(gòu)體內(nèi)存對齊?結(jié)構(gòu)體的大小怎么計算?

    ? 目錄 1.結(jié)構(gòu)體內(nèi)存對齊 對偏移量的理解:? 2.結(jié)構(gòu)體的大小計算 2.1結(jié)構(gòu)體中只有普通的數(shù)據(jù)類型的大小計算 2.2 結(jié)構(gòu)體中有嵌套的結(jié)構(gòu)體的大小計算 3.修改默認(rèn)對齊數(shù) 4.為什么存在內(nèi)存對齊? 這篇文章主要介紹結(jié)構(gòu)體內(nèi)存對齊和如何計算大小。 在學(xué)習(xí)結(jié)構(gòu)體內(nèi)存對齊之前,

    2024年02月11日
    瀏覽(26)
  • .Net接入AzureOpenAI、OpenAI、通義千問、智譜AI、訊飛星火、文心一言大語言模型。

    現(xiàn)在在網(wǎng)上搜索.NET接入大模型的帖子很少,有些官方案例只提供java和python的SDK,所以有了這篇.Net的接入大模型文章,目前僅實現(xiàn)對話模型的調(diào)用。 這里僅舉例通義千問,其他模型實現(xiàn)可以參考Gi他Hub 對您有幫助的話幫忙點個star 個人博客:FaceMan\\\' Blog 。 Github:FaceMan\\\' GitHub

    2024年01月21日
    瀏覽(23)
  • 手搓大語言模型 使用jieba分詞制作詞表,詞表大小幾十萬 加強依賴性

    jieba分詞詞表生成與訓(xùn)練

    2024年02月11日
    瀏覽(21)
  • 谷歌內(nèi)部開發(fā)AI大語言模型“鵝”;OpenAI CEO 尋求大規(guī)模AI芯片全球生產(chǎn)投資

    谷歌內(nèi)部開發(fā)AI大語言模型“鵝”;OpenAI CEO 尋求大規(guī)模AI芯片全球生產(chǎn)投資

    ?? AI新聞 ?? 谷歌內(nèi)部開發(fā)AI大語言模型“鵝” 摘要 :谷歌正在積極將AI技術(shù)融入其產(chǎn)品中,并為提升員工效率而開發(fā)了一個名為“鵝”的AI大語言模型。這一模型僅供公司內(nèi)部團隊使用,旨在輔助新產(chǎn)品的開發(fā)。據(jù)悉,“鵝”基于Google“25年的工程專業(yè)知識”訓(xùn)練而成,能

    2024年02月21日
    瀏覽(23)
  • MySQL為什么要使用B+樹做索引?MySQL索引存儲模型推演,B+樹在MySQL的落地形式

    MySQL為什么要使用B+樹做索引?MySQL索引存儲模型推演,B+樹在MySQL的落地形式

    user_innodb這張表里有4個字段,id,name,gender,phone。 當(dāng)這張表有500萬條數(shù)據(jù),在沒有索引的name字段上執(zhí)行一條where查詢: 如果name字段上有索引呢?我們在name字段上面創(chuàng)建一個索引,再來執(zhí)行一下查詢: 我們再來執(zhí)行一下select語句。 我們會發(fā)現(xiàn),有索引的查詢和沒有索引的

    2024年02月16日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包