国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?

這篇具有很好參考價(jià)值的文章主要介紹了定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

?人工智能的核心是算力。

定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?,人工智能,chatgpt

01

需要多少預(yù)算?

最近在學(xué)習(xí)大模型ChatGPT、ChatGLM,研究結(jié)合企業(yè)的應(yīng)用場景,解決一些業(yè)務(wù)難點(diǎn)、痛點(diǎn),不免涉及本地化部署、微調(diào)、訓(xùn)練、知識(shí)庫文檔數(shù)據(jù)提取等等方面的問題。????

同時(shí)還需要對硬件成本進(jìn)行一個(gè)大致的估算:這個(gè)項(xiàng)目需要得用多少GPU?硬件采購的費(fèi)用預(yù)算多少????????????????

要對硬件資源成本進(jìn)行估算,一方面決定于項(xiàng)目的技術(shù)方案:是否需要訓(xùn)練,還是只做微調(diào)訓(xùn)練,或者只做文檔提?。?strong>一方面決定于硬件的選型:選哪家的GPU產(chǎn)品。

02

算力需求

算力需求主要分為兩部分,包括訓(xùn)練算力和推理算力

目前來說對訓(xùn)練算力需求非常高,ChatGPT的公開數(shù)據(jù)顯示它的整個(gè)訓(xùn)練算力消耗非常大,達(dá)到了3640PF-days。

PF-days = 1 PetaFLOP/s 的效率運(yùn)行一天。PetaFLOP,是衡量計(jì)算機(jī)性能的一個(gè)重要單位,1 PetaFLOP等于每秒鐘進(jìn)行1千萬億次的數(shù)學(xué)運(yùn)算,這種速度大約是運(yùn)算速度最快計(jì)算機(jī)的8倍。

換成比較好理解的說法,假如每秒計(jì)算一千萬億次,需要計(jì)算3640天。

換算成英偉達(dá)A100芯片,它單卡算力相當(dāng)于0.6P的算力,理想情況下總共需要大概6000張,在考慮互聯(lián)損失的情況下,需要一萬張A100作為算力基礎(chǔ)。

在A100芯片(一張A100官方售價(jià)是1萬美元,而且對中國限售。英偉達(dá)銷售到國內(nèi)的是規(guī)避限售的相應(yīng)型號(hào)減配版。)10萬人民幣/張的情況下,算力的硬件投資規(guī)模達(dá)到10億人民幣。

訓(xùn)練算力相關(guān)設(shè)備主要是英偉達(dá)的A100和H100,推理算力主要是英偉達(dá)T4卡。

有數(shù)據(jù)顯示,ChatGPT在運(yùn)營過程中也需要相當(dāng)大的開銷。

根據(jù)國盛證券報(bào)告,以ChatGPT在1月的獨(dú)立訪客平均數(shù)1300萬計(jì)算,其對應(yīng)芯片需求為3萬多片A100 GPU,大概需要的算力成本為8億美元,每天的電費(fèi)成本在5萬美元左右。

在實(shí)際生產(chǎn)場景中,芯片的運(yùn)算速度也不等于先進(jìn)的算力,芯片速度和算力之間還有一個(gè)軟件層:“高性能GPU分布式訓(xùn)練框架“,?????????????????

算力問題之所以成為制約人工智能的瓶頸,是因?yàn)楫?dāng)前大模型進(jìn)入萬億參數(shù)時(shí)代,單體服務(wù)器算力有限,需要將大量服務(wù)器通過高性能網(wǎng)絡(luò)相連,打造大規(guī)模算力集群。

高性能計(jì)算存在“木桶效應(yīng)”,一旦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)任一環(huán)節(jié)出現(xiàn)瓶頸,就會(huì)導(dǎo)致運(yùn)算速度嚴(yán)重下降。

定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?,人工智能,chatgpt

以騰訊云原生來架構(gòu)模型訓(xùn)練的結(jié)構(gòu)如下(騰訊云星星海自研服務(wù)器,搭載英偉達(dá)最新代次H800 GPU,服務(wù)器之間采用3.2T超高互聯(lián)帶寬):?????????

定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?,人工智能,chatgpt

一共四層架構(gòu):最底層是算力硬件資源;上一層是高性能的計(jì)算集群,主要起到靈活調(diào)度和計(jì)算資源分配的作用;中間一層是深度學(xué)習(xí)加速,作用提升計(jì)算的利用率,最上面才是機(jī)器學(xué)習(xí),模型服務(wù)。

之前提到的國產(chǎn)大模型 ChatGLM2-6B 初體驗(yàn),是使用華為的AI框架昇思MindSpore訓(xùn)練的。據(jù)官方信息透露,最開始130B(1300億參數(shù))大小數(shù)據(jù)集的訓(xùn)練過程中,華為框架團(tuán)隊(duì)一同協(xié)同改進(jìn)框架,一共用了三個(gè)月。???????????????????

這也是為什么大模型迭代升級(jí),一項(xiàng)重要的改進(jìn)就是提升性能:性能提升571%,32K超長上下文,推理速度提升42%,允許商用,國產(chǎn)開源大模型推出了二代 ChatGLM2-6B,提升性能就是省錢。

03

有低成本的方案嗎???

直接訓(xùn)練模型投入大,周期長,只有大廠玩家才能有實(shí)力介入。如果只是直接使用例如ChatGPT,ChatGLM這類預(yù)訓(xùn)練模型,進(jìn)行微調(diào),或者是知識(shí)庫文檔數(shù)據(jù)提取,只消耗推理算力,投入成本就要小很多。?????????

參考海外最新研究《The Economics of Large Language Models》,可以有如下估計(jì): 每個(gè) token(1000 token 約等于 750 個(gè)單詞)的訓(xùn)練成本通常約為 6N,而推理 成本約為 2N,其中 N 是 LLM (大語言模型)的參數(shù)數(shù)量。

也就是說推理成本大約相當(dāng)于訓(xùn)練成本的三分之一。??

官方資料顯示,ChatGLM2-6B 模型能運(yùn)行起來的最低硬件要求:建議英偉達(dá)Tesla 顯卡系列,NVIDIA A100 GPU,15G顯存, 一般的 3090 GPU也差不多了。單這僅僅是模型進(jìn)行正常推理的算力最低要求,并沒有考慮使用用戶數(shù)量。?

要計(jì)算一個(gè)用戶向ChatGPT、ChatGLM 這類大模型提問并獲得回復(fù)所需的算力,我們需要考慮以下因素:模型規(guī)模(參數(shù)數(shù)量)、輸入文本長度(問題長度)、輸出文本長度(回復(fù)長度)、模型的計(jì)算復(fù)雜性。

其他3個(gè)要素好理解,模型的計(jì)算復(fù)雜性是什么呢?模型計(jì)算復(fù)雜性指的是模型本身的復(fù)雜程度,它與模型維度(D)和模型層數(shù)(N)成正比。

一個(gè)問題需要消耗的算力,可以用以下公式進(jìn)行粗略估算,F(xiàn)LOPs?浮點(diǎn)運(yùn)算次數(shù),用來衡量執(zhí)行某個(gè)任務(wù)所需的計(jì)算量。?

FLOPs ≈ L * D * N。

其中,L是用戶問題的輸入長度與模型回答的輸出長度之和。

假設(shè)一個(gè)用戶問ChatGPT一個(gè)50個(gè)字的問題,ChatGPT給出了1000字的回復(fù)。完成這樣一次交互需要消耗的算力:

FLOPs ≈ L * D * N?≈ 1050 * 1280 * 96?≈ 128,448,000

因此,當(dāng)輸入問題長度為50個(gè)詞,輸出回復(fù)長度為1000個(gè)詞時(shí),處理一個(gè)用戶向ChatGPT提問并獲得回復(fù)所需的算力約為128.45百萬次浮點(diǎn)運(yùn)算(FLOPs)。

還有一個(gè)細(xì)節(jié)問題:如果大模型回答不同類型的問題,只要問題長度和答案長度都一樣,其消耗的算力都一樣么?比如同樣的問題和答案長度,寫小說和做算術(shù)題這兩類任務(wù)消耗的算力是否一樣。

在理論上,只要輸入問題長度和輸出答案長度相同,處理不同類型問題所需的算力應(yīng)該是相似的。

這是因?yàn)椋瑹o論問題類型如何,Transformer模型的計(jì)算復(fù)雜性主要取決于輸入序列長度(L)、模型維度(D)和模型層數(shù)(N)。

不過,在實(shí)際應(yīng)用中,根據(jù)問題的難度和特定上下文,某些任務(wù)可能需要更多的計(jì)算步驟來生成更準(zhǔn)確的答案。

例如,在生成小說文本時(shí),模型可能需要花費(fèi)更多的計(jì)算資源來保持句子的連貫性、情感和文學(xué)風(fēng)格。而在解決算術(shù)問題時(shí),模型可能需要更多的計(jì)算資源來處理數(shù)學(xué)邏輯。

不過,從整體來看,兩者之間的計(jì)算復(fù)雜性差異相對較小。

因此,在問題長度和答案長度相同的情況下,不同類型的任務(wù)(如寫小說和解決算術(shù)問題)消耗的算力可能存在一定差異,但總體上應(yīng)該相差不大。

解決了估算計(jì)算量的問題,我們來算算支持的硬件資源需要多少。??????

以英偉達(dá)A100?GPU 為例,每個(gè)GPU在 FP32 單精度效能(訓(xùn)練算力)具有19.5 TFLOPs,INT8 整數(shù)效能(推理算力)具有624TPS?的性能。假設(shè)需要在1秒內(nèi)完成上面那個(gè)用戶50字的問題請求(128.45 * 10^6FLOPs)。粗略估算所需的 GPU數(shù)量

GPU?= FLOPs / (624?* 10^12 FLOPs/s)?≈ 128.45 * 10^6 / (624 * 10^12)

≈ 2.058 * 10^-7

假設(shè)使用系統(tǒng)的用戶數(shù)量為1000人,每個(gè)人的每個(gè)請求在3秒內(nèi)完成,那么一小時(shí)內(nèi)的請求總數(shù)量為(3600/3) * 1000 = 1.2?* 10^6?次。???

理論上,這樣的系統(tǒng)用戶規(guī)模,請求頻次,推理算力需要支持的 GPU 數(shù)量:????????

GPU?≈ 2.058 * 10^-7 * 1.2 * 10^6 = 0.25。

??????

再考慮訓(xùn)練模型等中間層利用率,集群協(xié)調(diào)等算力上的消耗,假設(shè)這部分損耗20%算力,GPU 數(shù)量大約為0.387。???????????

參考前面 A100的10萬人民幣的價(jià)格,大概是3.87萬。??????????

如果是國內(nèi)項(xiàng)目落地,同時(shí)考慮 GPU 的硬件廠家的選型。目前市場上比較認(rèn)可的是寒武紀(jì),2021年發(fā)布的思元370,是訓(xùn)練和推理一體的產(chǎn)品,24TFLPOS(FP32)訓(xùn)練算力和256TOPS (INT8)推理算力???????????????????

同時(shí)百度也在 2021 年發(fā)布昆侖芯二代產(chǎn)品,搭載GDDR6高性顯存,支持256TOPS(INT8)算力,和V100性能差不多,可以做訓(xùn)練和推理。不過都在百度云服務(wù)器上部署,多用于自家產(chǎn)品。

同樣上面的系統(tǒng)需求:1000用戶,每個(gè)請求3秒內(nèi)完成,使用寒武紀(jì)的思元370,需要的GPU數(shù)量:?????????????

GPU?≈ 0.387 *?624 / 256 ≈ 0.943 ,接近一塊GPU的數(shù)量,大約三倍左右。思元370目前市場報(bào)價(jià) 1.46萬。

不過實(shí)際應(yīng)用中,影響算力的因素可以說復(fù)雜得多,以上分析只是建立了一個(gè)簡單的計(jì)算模型。僅限于用于項(xiàng)目立項(xiàng)階段的費(fèi)用評(píng)估,可以適當(dāng)增加一些中間層級(jí)的消耗權(quán)重,給方案預(yù)算留出余地。?????????????

參考資料:

https://xueqiu.com/2524803655/246572538

https://www.qbitai.com/2023/04/46615.html

https://www.stcn.com/article/detail/841412.html

https://baijiahao.baidu.com/s?id=1763233924302503556

http://www.01ur.com/?m=home&c=View&a=index&aid=581

http://kuanfans.com/product/djsb-copy/1184.html

https://sunyan.substack.com/p/the-economics-of-large-language-models

往期熱門文章推薦:

ChatLaw:北大團(tuán)隊(duì)智能法律助手,國產(chǎn)大模型成功應(yīng)用普惠法律服務(wù)

為什么對ChatGPT、ChatGLM這樣的大語言模型說“你是某某領(lǐng)域?qū)<摇?,它的回答?huì)有效得多?(二)

終于部署成功!GPU 云環(huán)境搭建 ChatGLM2-6B 坎坷路

擁抱未來,學(xué)習(xí) AI 技能!關(guān)注我,免費(fèi)領(lǐng)取 AI 學(xué)習(xí)資源。文章來源地址http://www.zghlxwxcb.cn/news/detail-752229.html

到了這里,關(guān)于定制化需求|一個(gè)人工智能大模型應(yīng)用的算力成本有多高?的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包