大模型落地實(shí)戰(zhàn)指南:從選擇到訓(xùn)練,深度解析顯卡選型、模型訓(xùn)練技、模型選擇巧及AI未來(lái)展望—打造AI應(yīng)用新篇章
0.前言大模型發(fā)展史
- 早期階段(1950s~1980s)
在1950年代初期,人們開(kāi)始嘗試使用計(jì)算機(jī)處理自然語(yǔ)言文本。然而,由于當(dāng)時(shí)的計(jì)算機(jī)處理能力非常有限,很難處理自然語(yǔ)言中的復(fù)雜語(yǔ)法和語(yǔ)義。隨著技術(shù)的發(fā)展,自然語(yǔ)言處理領(lǐng)域在20世紀(jì)60年代和70年代取得了一些重要的進(jìn)展。例如,1970年,美國(guó)賓夕法尼亞大學(xué)的Adele Goldberg和David Robson創(chuàng)建了一個(gè)名為L(zhǎng)unenfeld Project的系統(tǒng),它可以進(jìn)行自動(dòng)翻譯。同時(shí),中國(guó)科學(xué)院自動(dòng)化研究所也在20世紀(jì)70年代開(kāi)始研究自然語(yǔ)言處理技術(shù),主要集中在機(jī)器翻譯領(lǐng)域。
- 中期階段(1980s~2010s)
進(jìn)入20世紀(jì)80年代和90年代,自然語(yǔ)言處理領(lǐng)域的研究更加深入。例如,1981年,Xerox PARC的研究人員Ron Kaplan和Martin Kay開(kāi)發(fā)了一個(gè)名為L(zhǎng)exical Functional Grammar(LFG)的語(yǔ)法框架,這為后續(xù)的NLP研究提供了重要的理論基礎(chǔ)。在這個(gè)階段,NLP技術(shù)開(kāi)始逐漸應(yīng)用于實(shí)際場(chǎng)景中,如機(jī)器翻譯、語(yǔ)音識(shí)別和文本分類(lèi)等。
- 現(xiàn)代階段(2010s~至今)
進(jìn)入21世紀(jì)后,尤其是近年來(lái),NLP大模型的發(fā)展迎來(lái)了革命性的突破。這主要得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展和計(jì)算能力的提升。在這一階段,預(yù)訓(xùn)練模型成為NLP領(lǐng)域的主流方法。
其中,2018年是一個(gè)重要的時(shí)間節(jié)點(diǎn)。在這一年,BERT模型的出現(xiàn)標(biāo)志著NLP大模型時(shí)代的開(kāi)始。BERT是一個(gè)基于Transformer結(jié)構(gòu)的雙向編碼器模型,通過(guò)在大量文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的語(yǔ)言知識(shí)和上下文信息。隨后,GPT系列模型也相繼問(wèn)世,這些模型在預(yù)訓(xùn)練的基礎(chǔ)上,通過(guò)微調(diào)可以適應(yīng)各種NLP任務(wù),取得了顯著的性能提升。
此外,隨著計(jì)算資源的不斷豐富和模型結(jié)構(gòu)的優(yōu)化,NLP大模型的規(guī)模也在不斷擴(kuò)大。從最初的幾百萬(wàn)參數(shù)到現(xiàn)在的幾十億甚至上百億參數(shù),這些大模型在性能上不斷刷新記錄,推動(dòng)了NLP技術(shù)的快速發(fā)展。
NLP領(lǐng)域主要模型的發(fā)展歷程可以大致分為如下幾個(gè)階段:
- 早期研究階段:側(cè)重于設(shè)計(jì)人工編寫(xiě)的規(guī)則和語(yǔ)法,如基于規(guī)則和知識(shí)的方法等;
- 統(tǒng)計(jì)方法崛起:引入數(shù)學(xué)和統(tǒng)計(jì)方法,側(cè)重于從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)學(xué)習(xí)語(yǔ)言規(guī)律,如隱馬爾可夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)等;
- 深度學(xué)習(xí)革命:基于神經(jīng)網(wǎng)絡(luò)模型的方法,強(qiáng)調(diào)自動(dòng)提取特征和端到端的訓(xùn)練,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等;
- 預(yù)訓(xùn)練模型興起:基于大規(guī)模數(shù)據(jù)和深度學(xué)習(xí)模型的預(yù)訓(xùn)練方法,提升了NLP任務(wù)的性能,如BERT、GPT、T5等。
可以發(fā)現(xiàn),NLP領(lǐng)域的主要模型,從深度學(xué)習(xí)階段開(kāi)始,經(jīng)過(guò)預(yù)訓(xùn)練模型興起,直到如今的各種聊天大模型的爆發(fā),NLP模型一直在向著參數(shù)量更多、通用性更強(qiáng)的方向發(fā)展。
-
左圖介紹:語(yǔ)言模型(LM)是一種利用自然文本來(lái)預(yù)測(cè)詞(Token)順序的機(jī)器學(xué)習(xí)方法。大語(yǔ)言模型(LLM)則通常指參數(shù)數(shù)量達(dá)到億級(jí)別的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,例如:GPT-3、GPT-4、PaLM2等,僅有左下方的灰色分支為非Transformer模型,其余顏色的分支均為基于Transformer的模型
-
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)的交叉領(lǐng)域,研究如何讓計(jì)算機(jī)處理、理解和生成人類(lèi)語(yǔ)言。目標(biāo)是:能夠?qū)崿F(xiàn)人機(jī)交互、自動(dòng)翻譯、信息檢索、情感分析等任務(wù)。應(yīng)用領(lǐng)域包括:搜索引擎、社交媒體監(jiān)測(cè)、智能客服、新聞生成等。
1.顯卡選擇篇-硬件配置
先說(shuō)結(jié)論,大模型的訓(xùn)練用 4090 是不行的,但推理(inference/serving)用 4090 不僅可行,在性?xún)r(jià)比上還能比 H100 稍高。4090 如果極致優(yōu)化,性?xún)r(jià)比甚至可以達(dá)到 H100 的 2 倍。
- 看鏈接相關(guān)文章超詳細(xì)講解
英偉達(dá)系列顯卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何選擇,含架構(gòu)技術(shù)和性能對(duì)比帶你解決疑惑
如何選擇GPU顯卡,帶你對(duì)比A100/H100/4090性?xún)r(jià)比、訓(xùn)練/推理該使用誰(shuí)?
2.大模型訓(xùn)練流程
訓(xùn)練一個(gè)大模型,到底需要投入多少塊,需要多少數(shù)據(jù),訓(xùn)練多長(zhǎng)時(shí)間能達(dá)到一個(gè)不錯(cuò)的效果? 本文引用靠譜的數(shù)據(jù),來(lái)回答這些問(wèn)題。
- 全流程訓(xùn)練
大模型的訓(xùn)練,簡(jiǎn)單來(lái)說(shuō),分為Pretraining
和Finetuning
微調(diào),Pretraining
需要非常多的數(shù)據(jù)和算力,Finetuning
相對(duì)來(lái)說(shuō)對(duì)算力的要求比較低。
-
LoRA
:基本原理是凍結(jié)預(yù)訓(xùn)練好的模型權(quán)重參數(shù),在凍結(jié)原模型參數(shù)的情況下,通過(guò)往模型中加入額外的網(wǎng)絡(luò)層,并只訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù) -
P-tuning v1
微調(diào)方法是將 Prompt 加入到微調(diào)過(guò)程中,只對(duì) Prompt 部分的參數(shù)進(jìn)行訓(xùn)練,而語(yǔ)言模型的參數(shù)固定不變 -
Freeze
:即參數(shù)凍結(jié),對(duì)原始模型部分參數(shù)進(jìn)行凍結(jié)操作,僅訓(xùn)練部分參數(shù) - RLHF(OpenAI)2022.12 (Reinforcement Learning fromHuman Feedback,人類(lèi)反饋強(qiáng)化學(xué)習(xí))起到的作用是,通過(guò)將人類(lèi)的反饋納入訓(xùn)練過(guò)程,為機(jī)器提供了一種自然的、人性化的互動(dòng)學(xué)習(xí)過(guò)程。
- RRHF(阿里巴巴)2023.4
- RLTF(騰訊)2023.7
- RRTF(華為)2023.7
- RLAIF(谷歌)2023.9
百度千帆大模型訓(xùn)練全流程Mass:
2.1 SFT監(jiān)督微調(diào)&RLHF講解
-
人工智能大語(yǔ)言模型微調(diào)技術(shù):SFT 監(jiān)督微調(diào)、LoRA 微調(diào)方法、P-tuning v2 微調(diào)方法、Freeze 監(jiān)督微調(diào)方法:
-
人工智能LLM模型:獎(jiǎng)勵(lì)模型的訓(xùn)練、PPO 強(qiáng)化學(xué)習(xí)的訓(xùn)練、RLHF
2.2 Prompt工程原理篇
-
大語(yǔ)言模型的預(yù)訓(xùn)練[3]之Prompt Learning:Prompt Engineering、Answer engineering、Multi-prompt learning詳情
-
大語(yǔ)言模型的預(yù)訓(xùn)練[4]:指示學(xué)習(xí)Instruction Learning:Entailment-oriented、PLM oriented、human-oriented以及和Prompt工程區(qū)別
-
大語(yǔ)言模型的預(yù)訓(xùn)練[5]:語(yǔ)境學(xué)習(xí)、上下文學(xué)習(xí)In-Context Learning:精調(diào)LLM、Prompt設(shè)計(jì)和打分函數(shù)(Scoring Function)設(shè)計(jì)以及ICL底層機(jī)制等原理詳解
-
大語(yǔ)言模型的預(yù)訓(xùn)練[6]:思維鏈(Chain-of-thought,CoT)定義原理詳解、Zero-shot CoT、Few-shot CoT 以及在LLM上應(yīng)用
2.3 Prompt工程實(shí)踐篇
-
Prompt進(jìn)階系列1:LangGPT(從編程語(yǔ)言反思LLM的結(jié)構(gòu)化可復(fù)用提示設(shè)計(jì)框架)
-
Prompt進(jìn)階2:LangGPT(構(gòu)建高性能Prompt策略和技巧)–最佳實(shí)踐指南
-
Prompt進(jìn)階3:LangGPT(構(gòu)建高性能質(zhì)量Prompt策略和技巧2)–穩(wěn)定高質(zhì)量文案生成器
-
Prompt進(jìn)階系列4:LangGPT(構(gòu)建高性能Prompt實(shí)踐指南)–結(jié)構(gòu)化Prompt
-
Prompt進(jìn)階系列5:LangGPT(提示鏈Prompt Chain)–提升模型魯棒性
-
Prompt工程全攻略:15+Prompt框架一網(wǎng)打盡(BROKE、COAST、LangGPT)、學(xué)會(huì)提示詞讓大模型更高效
3.大模型如何選擇
3.1 大模型能力對(duì)比
國(guó)內(nèi)外依然有一定差距。GPT4-Turbo總分92.71分領(lǐng)先,高于其他國(guó)內(nèi)大模型及國(guó)外大模型。其中國(guó)內(nèi)最好模型文心一言4.0總分87.75分,距離GPT4-Turbo有4.96分,距離GPT4(網(wǎng)頁(yè))有2.61分的差距。本次最新上榜的Google開(kāi)源模型的Gemma-7b-it表現(xiàn)不佳,可能的原因之一是訓(xùn)練數(shù)據(jù)中中文語(yǔ)料占比較少。
- 國(guó)內(nèi)大模型歷月前三甲
SuperCLUE月榜首位的大模型有5個(gè)。分別是文心一言、BlueLM、SenseChat3.0、Baichuan2-13B-Chat、360智腦。其中,百度的文心一言登頂SuperCLUE月榜的次數(shù)最多,分別在7月、11月、12月、24年2月取得了SuperCLUE最好成績(jī)。
3.2 開(kāi)源模型對(duì)比推薦
總體上大版本(如34B)的模型優(yōu)于中小版本(13B、6B)的開(kāi)源模型,更大的版本(如72B)的模型表現(xiàn)要更好。但也有小模型好于大模型的情況,如qwen1.5的70億參數(shù)版本好于一些130億參數(shù)的大模型,面壁智能的MiniCPM-2b好于智譜AI的ChatGLM3-6B
大廠(chǎng)中開(kāi)源的主導(dǎo)力量是阿里云,在各個(gè)參數(shù)量級(jí)中國(guó)都有模型開(kāi)源。但眾多的創(chuàng)業(yè)公司是開(kāi)源模型的主力,如智譜AI、百川智能、零一萬(wàn)物、元象科技、面壁智能。
3.2 Qwen 不同大小模型的訓(xùn)練、推理配置
- 通義千問(wèn)開(kāi)源模型配置要求
測(cè)量了使用BF16、Int8和Int4中的模型生成序列長(zhǎng)度(Sequence Length)2048的平均推理速度和GPU內(nèi)存使用情況。
- 訓(xùn)練所需要內(nèi)存列表
- 推理所需要內(nèi)存列表
- Qwen在各個(gè)評(píng)測(cè)任務(wù)表現(xiàn)-整體效果不錯(cuò)
-
技術(shù)創(chuàng)新:通義千問(wèn)720億參數(shù)模型(Qwen-72B)代表了當(dāng)時(shí)業(yè)界開(kāi)源模型的頂級(jí)技術(shù)水平,大規(guī)模參數(shù)量意味著模型具有更強(qiáng)的學(xué)習(xí)能力和泛化性能,能夠處理復(fù)雜多樣的自然語(yǔ)言任務(wù)。
-
性能表現(xiàn):在多個(gè)權(quán)威基準(zhǔn)評(píng)測(cè)中取得開(kāi)源模型最優(yōu)成績(jī),證明了其卓越的技術(shù)實(shí)力和廣泛的適用性,不僅超越了部分知名開(kāi)源模型如Llama 2-70B,而且在與商用閉源模型的競(jìng)爭(zhēng)中也展現(xiàn)出了競(jìng)爭(zhēng)力。
-
全模態(tài)能力:開(kāi)源的模型包括文本和音頻等多種模態(tài),實(shí)現(xiàn)了“全尺寸全模態(tài)”的開(kāi)源,表明通義千問(wèn)支持跨模態(tài)的應(yīng)用場(chǎng)景,增強(qiáng)了其在多領(lǐng)域應(yīng)用的潛力。
-
行業(yè)影響:阿里云推動(dòng)了AI技術(shù)普惠化進(jìn)程,使得學(xué)術(shù)界、企業(yè)和個(gè)人開(kāi)發(fā)者可以更便捷地利用這些先進(jìn)的模型進(jìn)行研究和開(kāi)發(fā),降低了準(zhǔn)入門(mén)檻,促進(jìn)了AI生態(tài)的繁榮與發(fā)展。
4. 對(duì)AI看法
-
提高效率:
- 在多個(gè)業(yè)務(wù)領(lǐng)域中,AI大模型通過(guò)自動(dòng)化和優(yōu)化流程,顯著提高了工作效率;
- 在數(shù)據(jù)分析領(lǐng)域,AI大模型可以自動(dòng)處理和分析海量數(shù)據(jù),提供有價(jià)值的洞察。
-
提高決策準(zhǔn)確性
- 基于大量數(shù)據(jù)的訓(xùn)練,AI大模型可以提供更為準(zhǔn)確的分析和預(yù)測(cè),可以做出更明智的決策。
-
推動(dòng)創(chuàng)新
- AI大模型的應(yīng)用為企業(yè)帶來(lái)了創(chuàng)新的可能性,推動(dòng)了產(chǎn)品和服務(wù)的升級(jí)。
更多優(yōu)質(zhì)內(nèi)容請(qǐng)關(guān)注公號(hào):汀丶人工智能;會(huì)提供一些相關(guān)的資源和優(yōu)質(zhì)文章,免費(fèi)獲取閱讀。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-845168.html
參考鏈接:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-845168.html
- https://github.com/QwenLM/Qwen?tab=readme-ov-file#profiling-of-memory-and-speed
- https://github.com/Lightning-AI/lit-llama/blob/main/howto/train_redpajama.md
到了這里,關(guān)于大模型落地實(shí)戰(zhàn)指南:從選擇到訓(xùn)練,深度解析顯卡選型、模型訓(xùn)練技、模型選擇巧及AI未來(lái)展望---打造AI應(yīng)用新篇章的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!