目錄
前言
一、概述
二、有哪些主流模型?
三、模型參數(shù)怎么選?
四、參數(shù)有什么作用?
五、CPU和GPU怎么選?
六、GPU和顯卡有什么關(guān)系?
七、GPU主流廠商有哪些?
1、NVIDIA芯片怎么選?
2、CUDA是什么?
3、AMD芯片怎么選?
4、NVIDIA和AMD兩者有什么區(qū)別?
八、GPU顯存怎么選?
1、模型參數(shù)?
2、量化處理?
九、什么是預(yù)訓(xùn)練和微調(diào)?
總結(jié)
前言
在打造企業(yè)AI大模型的路上,我們常常會(huì)遇到一系列的選型和概念挑戰(zhàn)。例如,如何選擇合適的模型,如何挑選GPU,以及什么是微調(diào)和監(jiān)督微調(diào)等。本文旨在深入剖析這些常見問題,為大家提供一個(gè)全面的概覽,幫助大家更好地理解和利用這些強(qiáng)大的工具。
一、概述
文章中我們將帶著問題去了解打造企業(yè)AI大模型中的關(guān)鍵實(shí)踐,包括模型選擇、參數(shù)理解、硬件選擇(CPU與GPU),以及訓(xùn)練技術(shù)(預(yù)訓(xùn)練和微調(diào))。我們將探討如何在眾多開源模型和商業(yè)解決方案中做出選擇,并基于業(yè)務(wù)需求調(diào)整模型參數(shù)和訓(xùn)練方法。通過閱讀本文獲得構(gòu)建和部署高效AI大模型的知識(shí)和工具,為以后在此領(lǐng)域的旅程提供堅(jiān)實(shí)的基礎(chǔ)。
二、有哪些主流模型?
對(duì)于企業(yè)如果自己從零研發(fā)自己的大模型;它對(duì)算力、數(shù)據(jù)的要求非常高,研發(fā)投入非常大,
比如以O(shè)penAI的GPT-3模型為例來估算。假設(shè):
- 模型訓(xùn)練需要1,000個(gè)NVIDIA A100 GPU。
- 每個(gè)GPU的價(jià)格為$10,000(這是A100 GPU的大致市場(chǎng)價(jià)格)。
- GPU租用費(fèi)用為$8/小時(shí)(這是一個(gè)大致的市場(chǎng)價(jià)格)。
- 模型訓(xùn)練時(shí)間為2個(gè)月(60天)。
- 每天24小時(shí)不間斷訓(xùn)練。
計(jì)算:
GPU購買成本 =?1,000 × 10,000=10,000,000
GPU租用成本 = 1,000 ×?8/小時(shí)×24小時(shí)/天×60天=?11,520,000
因此對(duì)大多數(shù)企業(yè)而言,更多的是從目前以及開源或者閉源的大模型上進(jìn)行選擇;
由于篇幅有限,下面僅列了部分主流模型:
企業(yè)名稱 |
模型名稱 |
開源情況 |
OpenAI |
GPT-3、GPT-3.5、GPT-4 |
不開源 |
|
PaLM、PaLM 2 |
不開源 |
|
Gemma 7B、Gemma 2B - It、CodeGemma-7B、CodeGemma-7B-IT、CodeGemma-2B、RecurrentGemma-2B |
開源 |
Meta |
OPT、LLaMA 7B、LLaMA 13B、LLaMA 33B、LLaMA 65B、LLaMA 65B |
開源不可商用 |
Meta |
LLaMA2 70B、LLaMA2 34B、LLaMA2 13B、LLaMA2 7B |
開源 |
微軟 |
Phi-1、Phi-1.5 |
開源不可商用 |
Phi-2 |
開源 |
|
智譜 |
ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B-Base |
開源 |
智譜 |
ChatGLM2 12B、GLM-130B、GLM4 |
不開源 |
百川 |
Baichuan 7B、Baichuan 13B - Base、Baichuan 13B - Chat、Baichuan2-7B-Base、Baichuan2-13B-Base |
開源 |
阿里巴巴 |
Qwen-7B、Qwen-1.8B、Qwen1.5-MoE-A2.7B、Qwen1.5-32B |
開源 |
華為 |
盤古 |
不開源 |
百度 |
文心 |
不開源 |
三、模型參數(shù)怎么選?
在大模型名稱后面通常都帶有一個(gè)字母B,"7b"、"13b"、"70b"等,它通常指的是大型神經(jīng)網(wǎng)絡(luò)模型的參數(shù)數(shù)量。其中的 "b" 代表 "billion",也就是十億。表示模型中的參數(shù)量,例如:"7b" 指的是?70 億個(gè)參數(shù);"13b"指的是?130 億個(gè)參數(shù)。
四、參數(shù)有什么作用?
大模型的參數(shù)是衡量模型能力的一個(gè)指標(biāo),一般XXB越大,通常模型就更厲害;因?yàn)楦嗟膮?shù)通常意味著模型可以捕捉到更復(fù)雜的數(shù)據(jù)模式,從而有潛力執(zhí)行更多種類的任務(wù)和提供更準(zhǔn)確的預(yù)測(cè)或判斷;
但是實(shí)際選擇時(shí)我們要從多方面考慮:
- 成本資源:訓(xùn)練和部署大型模型需要更大的計(jì)算資源和存儲(chǔ)空間,同時(shí)也需要更長的訓(xùn)練時(shí)間。
- 調(diào)試與維護(hù):小型模型通常更容易調(diào)試和維護(hù),而大型模型可能因?yàn)閺?fù)雜性增加而難以管理
- 實(shí)時(shí)性要求:在模型的推理時(shí)間方面,大型模型可能因?yàn)槠鋸?fù)雜性而導(dǎo)致較慢的預(yù)測(cè)速度。
- 數(shù)據(jù)特性:某些模型可能比較適合處理特定類型的數(shù)據(jù)如圖像、文本、時(shí)間序列等
- 行業(yè)需求:不同行業(yè)可能有特定的需求和限制,例如在金融行業(yè)中,模型的解釋性和合規(guī)性尤為重要;而在醫(yī)療行業(yè),模型的準(zhǔn)確性和可靠性至關(guān)重要
五、CPU和GPU怎么選?
1. 各自特點(diǎn):
CPU是計(jì)算機(jī)的大腦,負(fù)責(zé)硬件資源調(diào)配、執(zhí)行通用運(yùn)算,像是一個(gè)資深數(shù)學(xué)家,擅長處理復(fù)雜的任務(wù)。
GPU是圖形和并行計(jì)算的專家;適合圖形渲染和科學(xué)計(jì)算;像是一個(gè)專門進(jìn)行數(shù)值計(jì)算的團(tuán)隊(duì),其中每個(gè)成員都負(fù)責(zé)執(zhí)行簡(jiǎn)單的操作,但整個(gè)團(tuán)隊(duì)合起來可以同時(shí)處理大量的相似計(jì)算。
2. 使用場(chǎng)景:
CPU:適用于日常的辦公、軟件運(yùn)行、系統(tǒng)管理等需要復(fù)雜決策和邏輯處理的場(chǎng)景。
GPU:適用于視頻編輯、游戲、三維建模以及機(jī)器學(xué)習(xí)等需要大規(guī)模數(shù)據(jù)并行處理的場(chǎng)景。
3. 配置選擇
CPU在深度學(xué)習(xí)中至關(guān)重要,需提供足夠的數(shù)據(jù)處理能力以支持模型訓(xùn)練。例如,增加NVIDIA V100 GPU數(shù)量未能成比例提高DGX2服務(wù)器的吞吐量,表明CPU可能成為性能瓶頸。理想情況下,CPU核心數(shù)應(yīng)隨GPU數(shù)量線性增加,每塊GPU建議分配4~8個(gè)CPU核心以滿足數(shù)據(jù)讀取需求,但更多核心并不總是帶來顯著提升。
六、GPU和顯卡有什么關(guān)系?
GPU并不是一塊普通的顯卡。確切地說,GPU是顯卡中的核心組件,專門負(fù)責(zé)圖像處理任務(wù)。作為顯卡的關(guān)鍵芯片,GPU承擔(dān)了大部分圖形計(jì)算工作,從而減輕了中央處理單元(CPU)的負(fù)擔(dān)。
在3D圖形處理領(lǐng)域,GPU展現(xiàn)出其核心技術(shù)的威力,包括但不限于硬件T&L(Transform and Lighting,即幾何轉(zhuǎn)換和光照處理)、立方環(huán)境材質(zhì)映射、頂點(diǎn)混合技術(shù)、紋理壓縮以及凹凸映射貼圖等。這些技術(shù)的運(yùn)用,使得GPU能夠高效地執(zhí)行復(fù)雜的圖形渲染任務(wù),極大地提升了視覺效果的真實(shí)性和細(xì)膩度。
其中,硬件T&L技術(shù)是GPU的代表性特征之一,它允許GPU在不依賴CPU的情況下,獨(dú)立完成物體在3D空間中的變換和光照計(jì)算,顯著提高了圖形處理的效率和質(zhì)量
七、GPU主流廠商有哪些?
全球知名的GPU芯片生產(chǎn)廠商主要有NVIDIA、AMD?,和Intel等。另外也有一些國產(chǎn)GPU公司,景嘉微、寒武紀(jì)、海光信息等公司。目前市場(chǎng)上還是以NVIDIA、AMD?為主;通常所說的A卡指的是使用AMD芯片的顯卡,而N卡則是使用NVIDIA芯片的顯卡。
1、NVIDIA芯片怎么選?
1)Tesla系列:Tesla系列芯片是英偉達(dá)針對(duì)高性能計(jì)算和并行計(jì)算而設(shè)計(jì)的GPU芯片,其特點(diǎn)是高度可編程性和高性能。Tesla系列芯片的應(yīng)用領(lǐng)域包括科學(xué)計(jì)算、石油勘探、氣象預(yù)報(bào)、深度學(xué)習(xí)等領(lǐng)域。例如,Tesla V100是一款擁有640個(gè)張量核心的GPU芯片,能夠?qū)崿F(xiàn)高性能的深度學(xué)習(xí)計(jì)算。
2)Quadro系列:Quadro系列芯片是英偉達(dá)為計(jì)算機(jī)圖形學(xué)和可視化而設(shè)計(jì)的GPU芯片,其特點(diǎn)是高度的圖形性能和精度。Quadro系列芯片的應(yīng)用領(lǐng)域包括建筑設(shè)計(jì)、影視制作、游戲開發(fā)等領(lǐng)域。例如,Quadro RTX 6000是一款擁有4864個(gè)CUDA核心的GPU芯片,能夠?qū)崿F(xiàn)高精度、高逼真的圖形渲染。
3)GeForce系列:GeForce系列芯片是英偉達(dá)面向游戲玩家和計(jì)算機(jī)愛好者而設(shè)計(jì)的GPU芯片,其特點(diǎn)是出色的圖形性能和較低的價(jià)格。GeForce系列芯片的應(yīng)用領(lǐng)域包括游戲開發(fā)、虛擬現(xiàn)實(shí)、數(shù)字內(nèi)容制作等領(lǐng)域。例如,GeForce RTX 2080 Ti是一款擁有4352個(gè)CUDA核心的GPU芯片,能夠?qū)崿F(xiàn)高速的游戲渲染和虛擬現(xiàn)實(shí)應(yīng)用。
4)Titan系列:Titan系列芯片是英偉達(dá)面向?qū)I(yè)用戶和高端游戲玩家而設(shè)計(jì)的GPU芯片,其特點(diǎn)是超高的圖形性能和精度。Titan系列芯片的應(yīng)用領(lǐng)域包括游戲開發(fā)、計(jì)算機(jī)輔助設(shè)計(jì)、數(shù)字內(nèi)容制作等領(lǐng)域。例如,Titan RTX是一款擁有4608個(gè)CUDA核心的GPU芯片,能夠?qū)崿F(xiàn)高精度、高逼真的圖形渲染。
2、CUDA是什么?
CUDA(Compute Unified Device Architecture)是由NVIDIA開發(fā)的一種并行計(jì)算平臺(tái)和編程模型。該平臺(tái)利用GPU(圖形處理器)的強(qiáng)大計(jì)算能力,使其更適用于高性能計(jì)算和數(shù)據(jù)并行計(jì)算任務(wù)。是一種專門為NVIDIA的圖形處理單元(GPU)設(shè)計(jì)的軟件框架(也兼容其他AMD、Intel等廠商的芯片)
1、性能提升:利用GPU的并行處理能力,顯著提高計(jì)算速度。
2、編程靈活:提供C語言的擴(kuò)展,降低開發(fā)難度。
3、工具豐富:提供編譯器、調(diào)試器和優(yōu)化工具,支持開發(fā)過程。
4、庫資源豐富:提供豐富的庫函數(shù),方便開發(fā)者使用。
5、廣泛應(yīng)用:適用于多種領(lǐng)域,如圖形渲染、科學(xué)模擬和深度學(xué)習(xí)等。
6、統(tǒng)一架構(gòu):提供統(tǒng)一的內(nèi)存管理和設(shè)備控制接口,簡(jiǎn)化代碼結(jié)構(gòu)。
3、AMD芯片怎么選?
1.RadeonVega系列:最新的系列,采用了先進(jìn)的HBM2高速內(nèi)存技術(shù),能夠?yàn)橛螒蛲婕姨峁└恿鲿车挠螒蝮w驗(yàn),支持實(shí)時(shí)運(yùn)行多項(xiàng)任務(wù)。
2.RadeonRX500系列:此系列包括了RX580、RX570等型號(hào),性能強(qiáng)勁,能夠滿足廣大游戲愛好者的需求,同時(shí)還支持虛擬現(xiàn)實(shí)(VR)和高清視頻播放等功能。
3.RadeonRX400系列:此系列包括了RX480、RX470等,它們采用了全新的Polaris架構(gòu),能夠提供更高效的性能和更低的功耗。
4、NVIDIA和AMD兩者有什么區(qū)別?
NVIDIA:
1)圖形處理能力:英偉達(dá)GPU以其卓越的圖形渲染和計(jì)算能力著稱,特別適合處理高負(fù)荷的圖形應(yīng)用。
2)視覺效果:英偉達(dá)GPU支持高清晰度、高質(zhì)量紋理、光線追蹤等先進(jìn)特性,提供生動(dòng)視覺體驗(yàn)。
3)機(jī)器學(xué)習(xí)能力:英偉達(dá)GPU擅長處理大數(shù)據(jù)集,其高度可并行的架構(gòu)能夠快速處理數(shù)百萬個(gè)數(shù)據(jù)點(diǎn)。
AMD:
1)性能優(yōu)異:在性能方面表現(xiàn)出色,可提供頂級(jí)游戲圖像質(zhì)量和流暢運(yùn)行體驗(yàn)。
2)價(jià)格親民:相較于競(jìng)爭(zhēng)對(duì)手,AMD獨(dú)顯的價(jià)格更為實(shí)惠,既能提供高性能,又不會(huì)使您的錢包肆虐。
3)兼容性強(qiáng):可以與許多不同類型的計(jì)算機(jī)硬件兼容,從筆記本到臺(tái)式電腦,再到高端工作站。
4)能耗低:通常比其他同類產(chǎn)品消耗更少的能源,并且通常都提供了強(qiáng)大的節(jié)能選項(xiàng)。
八、GPU顯存怎么選?
1、模型參數(shù)?
1) 顯存的大小通常根據(jù)參數(shù)的精度來估算,不同的參數(shù)精度,需要的存儲(chǔ)空間不一樣;
2) 常見的參數(shù)精度有:雙精度(FP64)、單精度(FP32)、半精度(FP16)
3) 如果一個(gè)模型有70億(7B)個(gè)參數(shù),精度為FP32(float32),32位占4個(gè)字節(jié)(1字節(jié)= 8位)
那么它大約需要的存儲(chǔ)空間可以按照以下方式估算:
再將字節(jié)轉(zhuǎn)為GB,所以:
因此一個(gè)有70億參數(shù)的模型(精度為FP32),需要26G左右顯存;如果1024換為1000,簡(jiǎn)單粗暴計(jì)算(7*4=28)大約需要28GB的存左右儲(chǔ)空間來保存所有參數(shù),13B則需要52G左右的顯存;
注意:這是簡(jiǎn)單換算,不考慮其他方面的影響;對(duì)于模型訓(xùn)練,GPU的選擇不僅取決于模型的大小,還取決于訓(xùn)練數(shù)據(jù)集的大小和期望的訓(xùn)練速度;訓(xùn)練通常需要的GPU顯存是推理的10倍以上。
2、量化處理?
量化處理(一種模型壓縮技術(shù)):簡(jiǎn)單理解可以將模型的從高精度的浮點(diǎn)數(shù),轉(zhuǎn)化為低精度的8位整數(shù)(int8)或者4位整數(shù)(int4),比如將32FP轉(zhuǎn)為為int8后,存儲(chǔ)空間縮減了四分之三(原來需要4個(gè)字節(jié)存儲(chǔ),現(xiàn)在只需1個(gè)字節(jié));
比如:ChatGLM3-6B 默認(rèn)情況, 以 FP16 精度加載,需要14G左右顯存,量化后需要的顯存更小。
量化等級(jí) |
最低 GPU 顯存(推理) |
最低 GPU 顯存(高效參數(shù)微調(diào)) |
FP16(無量化) |
13 GB |
14 GB |
INT8 |
8 GB |
9 GB |
INT4 |
6 GB |
7 GB |
注意:量化技術(shù)可以降低模型的計(jì)算和存儲(chǔ)成本,同時(shí)降低精度會(huì)導(dǎo)致信息丟失、模型的預(yù)測(cè)準(zhǔn)確性有所下降。
九、什么是預(yù)訓(xùn)練和微調(diào)?
1、預(yù)訓(xùn)練(Pre-training)
預(yù)訓(xùn)練是語言模型學(xué)習(xí)的初始階段;在預(yù)訓(xùn)練期間,模型會(huì)接觸到大量未標(biāo)記的文本數(shù)據(jù),例如書籍、文章和網(wǎng)站。在大量未標(biāo)記文本數(shù)據(jù)上訓(xùn)練語言模型。比如說在包含數(shù)百萬本書、文章和網(wǎng)站的數(shù)據(jù)集上預(yù)訓(xùn)練像GPT-3這樣的語言模型。預(yù)訓(xùn)練目標(biāo)是捕獲文本語料庫中存在的底層模式、結(jié)構(gòu)和語義知識(shí)。(basemodel)
2、微調(diào)(Fine-Tuning)
微調(diào)是在特定任務(wù)或領(lǐng)域上進(jìn)一步訓(xùn)練大型語言模型(LLM)的過程。這可以通過使用預(yù)訓(xùn)練的LLM作為起點(diǎn),然后在特定任務(wù)或領(lǐng)域的標(biāo)記數(shù)據(jù)集上訓(xùn)練它來完成。微調(diào)可以通過調(diào)整模型的權(quán)重來更好地?cái)M合數(shù)據(jù),從而提高LLM在特定任務(wù)或領(lǐng)域上的性能。
3、監(jiān)督微調(diào)(SupervisedFine-Tuning)
人工介入,給出高質(zhì)量的文本問答例子。經(jīng)過問答式訓(xùn)練的Model叫做SFTmodel,就可以正?;卮鹑说膯栴}了。(SFTmodel)
4、基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback)
人工先介入,通過對(duì)同一個(gè)Prompt生成答案的排序來訓(xùn)練一個(gè)RewardModel。再用RewardModel去反饋給SFTModel,通過評(píng)價(jià)生成結(jié)果的好壞,讓模型更傾向于生成人們喜好的結(jié)果。RLHF是一種更復(fù)雜、更耗時(shí)的方法來微調(diào)LLM,但它比SFT更有效。(RLHFmodel)
總結(jié)
探索AI大模型的路上,我們不僅僅是在追逐技術(shù)的頂峰,更是在為具體的業(yè)務(wù)場(chǎng)景尋找最佳的匹配方案。面對(duì)層出不窮的技術(shù)細(xì)節(jié)和背景知識(shí),我們通過不斷學(xué)習(xí)、梳理和實(shí)踐,逐步揭開其神秘的面紗。掌握了這些關(guān)鍵常識(shí),我們就能夠更精準(zhǔn)地搭建起通向未來的橋梁,無論是在模型選擇、硬件配置還是訓(xùn)練技巧上,都將游刃有余。最終希望這些解讀不僅僅停留在理論探討上,更能在實(shí)際的開發(fā)和應(yīng)用中發(fā)光發(fā)熱,引領(lǐng)大家在AI的星辰大海中乘風(fēng)破浪。文章來源:http://www.zghlxwxcb.cn/news/detail-854550.html
文章若有瑕疵,懇請(qǐng)不吝賜教;若有所觸動(dòng)或助益,還望各位老鐵多多關(guān)注并給予支持。文章來源地址http://www.zghlxwxcb.cn/news/detail-854550.html
到了這里,關(guān)于AI大模型探索之路-應(yīng)用篇13:企業(yè)AI大模型選型指南的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!