国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星

這篇具有很好參考價(jià)值的文章主要介紹了650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

開源LLaMA神話再次復(fù)現(xiàn)!首個(gè)開源650億參數(shù)大模型高性能預(yù)訓(xùn)練方案,訓(xùn)練加速38%,低成本打造量身大模型。

「百模大戰(zhàn)」正風(fēng)起云涌,AIGC相關(guān)企業(yè)融資和并購(gòu)金額也屢創(chuàng)新高,全球科技企業(yè)爭(zhēng)相入局。

然而,AI大模型風(fēng)光無(wú)限的背后是成本極其高昂,單次預(yù)訓(xùn)練成本或高達(dá)上千萬(wàn)元。基于LLaMA等現(xiàn)有開源大模型的微調(diào),也難以滿足企業(yè)打造核心競(jìng)爭(zhēng)力和多樣化商業(yè)使用等需求。

因此,如何低成本量身打造預(yù)訓(xùn)練基礎(chǔ)大模型,已成為AI大模型浪潮的關(guān)鍵瓶頸。

Colossal-AI作為全球最大、最活躍的大模型開發(fā)工具與社區(qū),以當(dāng)前被最廣泛使用的LLaMA為例,提供開箱即用的650億參數(shù)預(yù)訓(xùn)練方案,可提升訓(xùn)練速度38%,為大模型企業(yè)節(jié)省大量成本。

650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星,智能語(yǔ)音,llama,開源,github

開源地址:https://github.com/hpcaitech/ColossalAI

LLaMA點(diǎn)燃開源熱情

Meta開源的7B~65B LLaMA大模型進(jìn)一步激發(fā)了打造類ChatGPT的熱情,并由此衍生出Alpaca、Vicuna、ColossalChat等微調(diào)項(xiàng)目。

但LLaMA只開源了模型權(quán)重且限制商業(yè)使用,微調(diào)能夠提升和注入的知識(shí)與能力也相對(duì)有限。對(duì)于真正投身大模型浪潮的企業(yè)來說,仍必須預(yù)訓(xùn)練自己的核心大模型。

為此,開源社區(qū)也做了諸多努力:

  • RedPajama:開源可商用類LLaMA數(shù)據(jù)集,無(wú)訓(xùn)練代碼和模型

  • OpenLLaMA:開源可商用類LLaMA 7B, 13B模型,使用EasyLM基于JAX和TPU訓(xùn)練

  • Falcon:開源可商用類LLaMA 7B, 40B模型,無(wú)訓(xùn)練代碼

但對(duì)于最主流的PyTorch + GPU生態(tài),仍缺乏高效、可靠、易用的類LLaMA基礎(chǔ)大模型預(yù)訓(xùn)練方案。

最佳大模型預(yù)訓(xùn)練方案提速38%

針對(duì)上述空白與需求,Colossal-AI首個(gè)開源了650億參數(shù)LLaMA低成本預(yù)訓(xùn)練方案。

相比業(yè)界其他主流選擇,該方案可提升預(yù)訓(xùn)練速度38%,僅需32張A100/A800即可使用,并且不限制商業(yè)使用。

650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星,智能語(yǔ)音,llama,開源,github

而像原生PyTorch、FSDP等,則因顯存溢出無(wú)法運(yùn)行該任務(wù)。Hugging Face accelerate、DeepSpeed、Megatron-LM也未對(duì)LLaMA預(yù)訓(xùn)練進(jìn)行官方支持。

開箱即用

1. 安裝Colossal-AI

git?clone?-b?example/llama?https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install and enable CUDA kernel fusionCUDA_EXT=1 pip install .

2. 安裝其他依賴

cd?examples/language/llama# install other dependenciespip install -r requirements.txt# use flash attentionpip install xformers

3. 數(shù)據(jù)集

默認(rèn)數(shù)據(jù)集togethercomputer/RedPajama-Data-1T-Sample將在首次運(yùn)行時(shí)自動(dòng)下載,也可通過-d或--dataset指定自定義數(shù)據(jù)集。

4. 運(yùn)行命令

已提供7B和65B的測(cè)速腳本,僅需根據(jù)實(shí)際硬件環(huán)境設(shè)置所用多節(jié)點(diǎn)的host name即可運(yùn)行性能測(cè)試。?????

cd benchmark_65B/gemini_auto
bash batch12_seq2048_flash_attn.sh

對(duì)于實(shí)際的預(yù)訓(xùn)練任務(wù),使用與速度測(cè)試一致,啟動(dòng)相應(yīng)命令即可,如使用4節(jié)點(diǎn)*8卡訓(xùn)練65B的模型。

colossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a

例如,使用Colossal-AI gemini_auto并行策略,可便捷實(shí)現(xiàn)多機(jī)多卡并行訓(xùn)練,降低顯存消耗的同時(shí)保持高速訓(xùn)練。還可根據(jù)硬件環(huán)境或?qū)嶋H需求,選擇流水并行+張量并行+ZeRO1等復(fù)雜并行策略組合。

其中,通過Colossal-AI的Booster Plugins,用戶可以便捷自定義并行訓(xùn)練,如選擇Low Level ZeRO,Gemini,DDP等并行策略。

Gradient checkpointing通過在反向傳播時(shí)重新計(jì)算模型的activation來減少內(nèi)存使用。通過引入Flash attention機(jī)制加速計(jì)算并節(jié)省顯存。

用戶可以通過命令行參數(shù)便捷控制數(shù)十個(gè)類似的自定義參數(shù),在保持高性能的同時(shí)為自定義開發(fā)保持了靈活性。

650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星,智能語(yǔ)音,llama,開源,github

ColossalAI最新的ShardFormer極大降低了使用多維并行訓(xùn)練LLM的上手成本。

現(xiàn)已支持包括LLaMA的多種等主流模型,且原生支持Huggingface/transformers模型庫(kù)。

無(wú)需改造模型,即可支持多維并行(流水、張量、ZeRO、DDP等)的各種配置組合,能夠在各種硬件配置上都發(fā)揮卓越的性能。

AI大模型系統(tǒng)基礎(chǔ)設(shè)施 Colossal-AI

Colossal-AI為該方案提供了核心系統(tǒng)優(yōu)化與加速能力支持,它由加州伯克利大學(xué)杰出教授James Demmel和新加坡國(guó)立大學(xué)校長(zhǎng)青年教授尤洋領(lǐng)導(dǎo)開發(fā)。

Colossal-AI基于PyTorch,可通過高效多維并行、異構(gòu)內(nèi)存等,降低AI大模型訓(xùn)練/微調(diào)/推理的開發(fā)與應(yīng)用成本,降低GPU需求等。

Colossal-AI上述解決方案已在某世界500強(qiáng)落地應(yīng)用,在千卡集群性能優(yōu)異,僅需數(shù)周即可完成千億參數(shù)私有大模型預(yù)訓(xùn)練。上海AI Lab與商湯等新近發(fā)布的InternLM也基于Colossal-AI在千卡實(shí)現(xiàn)高效預(yù)訓(xùn)練。

自開源以來,Colossal-AI已經(jīng)多次在GitHub熱榜位列世界第一,獲得GitHub Star超3萬(wàn)顆,并成功入選SC、AAAI、PPoPP、CVPR、ISC等國(guó)際AI與HPC頂級(jí)會(huì)議的官方教程,已有上百家企業(yè)參與共建Colossal-AI生態(tài)。

其背后的潞晨科技,近期獲得數(shù)億元A輪融資,已在成立18個(gè)月內(nèi)已迅速連續(xù)完成三輪融資。

開源地址:

https://github.com/hpcaitech/ColossalAI

參考鏈接:

https://www.hpc-ai.tech/blog/large-model-pretraining文章來源地址http://www.zghlxwxcb.cn/news/detail-603241.html

到了這里,關(guān)于650億參數(shù),訓(xùn)練飆升38%!LLaMA基礎(chǔ)大模型復(fù)刻最佳實(shí)踐開源,GitHub已獲30k星的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包