国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Stable Diffusion10

這篇具有很好參考價值的文章主要介紹了Stable Diffusion10。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

這次是10 之Stable Diffusion2.0?算力成本驟降

從AI畫畫到NLP大模型,AIGC的落地成本被一次性打下來了!

話不多說,直接看結(jié)果:

  • Stable Diffusion 2.0訓(xùn)練/微調(diào)/推理,顯存消耗最多可節(jié)省5.6倍,使硬件成本直降至1/46,一行代碼即可啟用;

  • 1750億參數(shù)大模型BLOOM單機(jī)推理,顯存消耗節(jié)省4倍,硬件成本直降至十幾分之一

  • 一行代碼實(shí)現(xiàn)自動搜索最佳并行策略,顯著降低分布式訓(xùn)練上手門檻,原生支持Hugging Face、Timm等熱門AI模型庫。

要知道,在AIGC爆火的另一面,居高不下的成本困擾著整個行業(yè)。

上周,首批AI畫畫公司之一StockAI被迫宣布關(guān)閉平臺。原因無他,創(chuàng)始人表示:

公司驅(qū)動成本太高了,目前的收入難以為繼。

即便如ChatGPT身后有OpenAI和微軟撐腰,也在平臺開放幾周后發(fā)出公告,開始限制用戶每日使用次數(shù)。

言下之意無非四個字:燒不起了。

Stable Diffusion10

總而言之,降低AI大模型落地成本,是目前行業(yè)內(nèi)亟需解決的問題。

與此同時,開源AI大模型解決方案Colossal-AI在過去一年迅速躥紅,GitHub上已經(jīng)收獲7k+Star。

如上降本方案,便出自它之手。

具體是怎么實(shí)現(xiàn)的?往下看,

開源地址:
https://github.com/hpcaitech/ColossalAI

Stable Diffusion2.0低成本訓(xùn)練/微調(diào)/推理

相較于1.0版本,Stable Diffusion 2.0不僅提升了模型生成圖像像素,還引入了Depth2img模型、text-guided修復(fù)模型等,功能更加完善。

這波上新其實(shí)讓用戶們既驚喜又措手不及。

(畢竟1.0都還沒玩明白呢)

但話說回來,還是老問題,AIGC模型落地的成本高啊。

以Stable Diffusion為例,其背后的Stability AI維護(hù)超過 4000 個英偉達(dá) A100 的 GPU 集群,并已為此支出超過 5000 萬美元的運(yùn)營成本。

面對快速迭代的模型、算法和下游任務(wù),如何降低應(yīng)用成本成為AIGC真正走向落地的核心問題。

Stable Diffusion10

Stable Diffusion 2.0基于簡單易用的PyTorch Lightning框架搭建。

作為PyTorch Lightning的官方大模型解決方案,Colossal-AI第一時間進(jìn)行跟進(jìn)。

具體內(nèi)容有以下幾點(diǎn):

  • 顯存消耗可節(jié)省5.6倍,硬件成本最多降至1/46

  • 支持DreamBooth單GPU快速個性化微調(diào)

  • 推理顯存消耗節(jié)省2.5倍

而且該方案也將于近期合并進(jìn)入Hugging Face,進(jìn)一步方便用戶使用。

訓(xùn)練

為了加快訓(xùn)練速度,降低訓(xùn)練成本,使用更大的batch size已成為被廣泛使用的有效手段。但GPU有限的顯存容量,嚴(yán)重限制了batch size大小,推高了訓(xùn)練硬件門檻。

通過一系列顯存優(yōu)化技術(shù),Colossal-AI使得Stable Diffusion平均在每個GPU上使用大batch size 16訓(xùn)練的顯存需求,從64.5GB降低到了11.6GB、節(jié)省5.6倍,還可擴(kuò)展至單GPU或多GPU并行。

Stable Diffusion10

相比使用最先進(jìn)的A100 80GB,目前僅需3060等消費(fèi)級顯卡即可滿足需求,硬件成本最高直降至1/46。?

Stable Diffusion10

由此可以讓更多用戶在消費(fèi)級GPU上,低成本地開展Stable Diffusion的相關(guān)研究與應(yīng)用落地。

背后顯存優(yōu)化

Flash Attention

早在Stable Diffusion 1.0版本,Colossal-AI就率先引入了Flash Attention技術(shù),成功將attention的速度提升 104%,將端到端訓(xùn)練的峰值顯存減少 23%

Flash Attention是針對長序列 attention 的加速版本,使用 Flatten 來減少 GPU 高帶寬內(nèi)存(HBM)之間的內(nèi)存讀 / 寫次數(shù),F(xiàn)lash attention 同時針對塊狀稀疏的 attention,設(shè)計(jì)了一個近似的注意力算法,比任何現(xiàn)有的近似 attention 方法都要快。

在Stable Diffusion 1.0版本,整個Diffusion Model只有少量attention層,F(xiàn)lash attention還沒有體現(xiàn)出其性能優(yōu)勢。

在Stable Diffusion 2.0中,由于將大量卷積層替換為attention層,進(jìn)一步發(fā)揮了Flash Attention的顯存優(yōu)化潛力。

ZeRO + Gemini

Colossal-AI支持使用零冗余優(yōu)化器(ZeRO)的方法來消除內(nèi)存冗余,與經(jīng)典的數(shù)據(jù)并行性策略相比,可極大提高內(nèi)存使用效率,同時不犧牲計(jì)算粒度和通信效率。

此外,Colossal-AI 還引入了Chunk機(jī)制進(jìn)一步提升ZeRO的性能。

運(yùn)算順序上連續(xù)的一組參數(shù)存入一個Chunk中(Chunk即一段連續(xù)的內(nèi)存空間),每個Chunk的大小相同。

Chunk方式組織內(nèi)存可以保證PCI-e和GPU-GPU之間網(wǎng)絡(luò)帶寬的高效利用,減小了通信次數(shù),同時避免潛在的內(nèi)存碎片。

Stable Diffusion10

而Colossal-AI的異構(gòu)內(nèi)存空間管理器Gemini支持將優(yōu)化器狀態(tài)從GPU卸載到CPU,以節(jié)省GPU內(nèi)存占用。

可以同時利用GPU內(nèi)存、CPU內(nèi)存(由CPU DRAM或NVMe SSD內(nèi)存組成)來突破單GPU內(nèi)存墻的限制,進(jìn)一步擴(kuò)展了可訓(xùn)練模型規(guī)模。

一行代碼快速上手

作為PyTorch Lightning的官方合作伙伴,僅需一行代碼即可調(diào)用Colossal-AI的上述顯存優(yōu)化。

from?lightning.pytorch?import?trainer,?LightningModule
from?lightning.pytorch.strategies?import?ColossalAIStrategy

Mystrategy?=?ColossalAIStrategy(use_chunk=True,?enable_distributed_storage=True,?placement_policy=auto)

trainer?=?Trainer(accelerator="gpu",?devices=4,?precision=16,?strategy=Mystrategy)
trainer.fit(model)

DreamBooth微調(diào)

在推出Stable Diffusion 2.0加速方案的同時,Colossal-AI還“順手”發(fā)布了DreamBooth模型的微調(diào)方案。

這是谷歌在今年8月發(fā)布的模型。它只需3-5張圖片,再加上文字表述,就能讓指定物體遷移到其他場景或風(fēng)格中去。

?Stable Diffusion10

和Dall-E 2、Imagen等最大的不同是,DreamBooth能對選定對象忠實(shí)還原。

方案中,用戶只需直接運(yùn)行文件train_dreambooth_colossalai.py,即可在該微調(diào)任務(wù)上充分發(fā)揮Colossal-AI的顯存優(yōu)化,個性化快速微調(diào)自己的圖文模型,極大降低使用門檻。

推理

由于模型推理對數(shù)值精度不敏感,這為實(shí)現(xiàn)低精度的低成本推理提供了可能。

對于Stable Diffusion 2.0模型,可以通過添加一行代碼,支持模型的Int8量化推理,顯存消耗節(jié)省2.5倍,僅需3.1GB,且不造成顯著性能損失。

model?=?replace_module(model)

Stable Diffusion10

用RTX3090推理1750億BLOOM模型

AI畫畫爆火的另一邊,NLP大模型的趨勢也還在延續(xù)。

今年7月,Hugging Face發(fā)布了1750億參數(shù)開源模型BLOOM,它動用384塊A100煉成。

如果直接使用常見的FP32/FP16進(jìn)行推理,在單節(jié)點(diǎn)8張GPU使用模型并行,每張GPU需要消耗至少87.5GB/43.8GB的顯存。

如此大的顯存占用,即使是最先進(jìn)的8卡A100(80GB/40GB)服務(wù)器,也無法直接部署推理服務(wù),而多節(jié)點(diǎn)推理又會帶來沉重的額外成本和通信開銷。

基于這一現(xiàn)狀,Colossal-AI實(shí)現(xiàn)了高效的Int8量化和模型并行推理,可以將1750億參數(shù)的BLOOM等大模型的推理服務(wù),部署到3090/4090等消費(fèi)級顯卡的8卡服務(wù)器,同時不產(chǎn)生顯著的CPU內(nèi)存占用提升及性能損耗。

相比原有的A100方案,可將硬件部署成本降低到原有的十幾分之一。

Stable Diffusion10

通過對模型進(jìn)行Int8量化,Colossal-AI可將模型總體顯存占用從352.3GB(FP16)降低到185.6GB, 同時使用Colossal-AI的模型并行技術(shù),將每張顯卡的占用減少到了23.2GB。

在模型并行中,為了不增加CPU內(nèi)存占用,Colossal-AI在主進(jìn)程中進(jìn)行模型的量化和切分工作,其余的每個進(jìn)程中分別使用lazy_init獲得幾乎不占顯存和內(nèi)存的meta model,再通過gloo backend在進(jìn)程之間傳遞模型參數(shù)。

通過上述方案,在沒有分段加載模型參數(shù)的情況下,便可以使得CPU內(nèi)存占用峰值,達(dá)到理論上的較優(yōu)水平。相較于將模型按層切分的“類流水線”分布方式,模型并行可以提高非密集請求下的顯存使用效率。

一行代碼自動并行

大模型的分布式混合部署是一個非常復(fù)雜的問題。

目前常見的分布式大模型訓(xùn)練方案,都依賴于用戶人工反復(fù)嘗試以及系統(tǒng)專家基于經(jīng)驗(yàn)進(jìn)行配置部署。

然而,這對于絕大多數(shù)AI開發(fā)者來說很不友好,因?yàn)榇蠹叶疾幌M堰^多時間精力花費(fèi)在研究分布式系統(tǒng)和試錯上。

由此,Colossal-AI的高效易用自動并行系統(tǒng),可以說是解大家燃眉之急了。

僅需增加一行代碼,它就能提供cluster信息以及單機(jī)訓(xùn)練模型即可獲得分布式訓(xùn)練能力,并且原生支持包括Hugging Face,Timm等熱門AI模型庫。

#?wrap?the?model?using?auto_engine
model,?optimizer?=?auto_engine(model,?optimizer,?cluster_info)
#?normal?training?loop
...

因此,Colossal-AI可以極大地降低AI開發(fā)者的使用分布式技術(shù)訓(xùn)練和微調(diào)大模型門檻。同時,自動并行系統(tǒng)可以從更細(xì)粒度搜索并行策略,找到更加高效的并行方案。

?Stable Diffusion10

Graph Tracing

Colossal-AI是首個基于PyTorch框架使用靜態(tài)圖分析的自動并行系統(tǒng)。

PyTorch作為一個動態(tài)圖框架,獲取其靜態(tài)的執(zhí)行計(jì)劃是機(jī)器學(xué)習(xí)系統(tǒng)領(lǐng)域被長期研究的問題。

Colossal-AI使用基于torch.FX Tracer的ColoTracer,在tracing過程中推導(dǎo)并記錄了每個tensor的元信息,例如tensor shape,dims,dtype等,可以為后續(xù)的自動并行策略搜索提供幫助。

因此Colossal-AI具有更好的模型泛化能力,而不是依靠模型名或手動修改來適配并行策略。

細(xì)粒度分布式訓(xùn)練策略搜索

Colossal-AI會在滿足內(nèi)存預(yù)算的限制下,以最快運(yùn)行時間為目標(biāo),為每個op進(jìn)行策略搜索,最終得到真實(shí)訓(xùn)練時的策略,包括每個tensor的切分策略,不同計(jì)算節(jié)點(diǎn)間需要插入的通信算子類型,是否要進(jìn)行算子替換等。

現(xiàn)有系統(tǒng)中的張量并行、數(shù)據(jù)并行,NVIDIA在Megatron-LM等并行系統(tǒng)中使用的column切分和row切分并行等混合并行,都是自動并行可以搜索到的策略的子集。

除了這些可以手動指定的并行方式外,Colossal-AI的自動并行系統(tǒng)有能力為每個op指定獨(dú)特的并行方式,因此有可能找到比依賴專家經(jīng)驗(yàn)和試錯配置的手動切分更好的并行策略。

分布式tensor與shape consistency系統(tǒng)

與PyTorch最新發(fā)布的DTensor類似,Colossal-AI也使用了device mesh對集群進(jìn)行了抽象管理。

具體來說,Colossal-AI使用sharding spec對tensor的分布式存儲狀態(tài)進(jìn)行標(biāo)注,使用shape consistency manager自動地對同一tensor在不同sharding spec間進(jìn)行轉(zhuǎn)換。

這讓Colossal-AI的通用性和易用性極大地提升,借助shape consistency manager可以沒有負(fù)擔(dān)地切分tensor,而不用擔(dān)心上游op的output與下游的input在集群中的存儲方式不同。

Stable Diffusion10?

相較于PyTorch DTensor,Colossal-AI有以下3個優(yōu)勢:

  • Colossal-AI的device mesh可以profiling到集群性能指標(biāo),對不同的通信算子進(jìn)行耗時估算。

  • Colossal-AI的shape consistency會貪心地搜索sharding spec間的轉(zhuǎn)換方式,而不是樸素地逐dimension進(jìn)行轉(zhuǎn)換,這樣能找到更高效的轉(zhuǎn)換路徑,進(jìn)而使得sharding spec間的轉(zhuǎn)換通信開銷更小。

  • 加入了all_to_all操作,使得Colossal-AI的擴(kuò)展性更強(qiáng),這在大規(guī)模集群上進(jìn)行訓(xùn)練時,可以展現(xiàn)出很大的優(yōu)勢 ? ? ???whaosoft aiot?http://143ai.com??

與activation checkpoint結(jié)合

作為大模型訓(xùn)練中必不可少的顯存壓縮技術(shù),Colossal-AI也提供了對于activation checkpoint的自動搜索功能。

相比于大部分將最大顯存壓縮作為目標(biāo)的技術(shù)方案,Colossal-AI的搜索目標(biāo)是在顯存預(yù)算以內(nèi),找到最快的activation checkpoint方案。

同時,為了避免將activation checkpoint的搜索一起建模到SPMD solver中導(dǎo)致搜索時間爆炸,Colossal-AI做了2-stage search的設(shè)計(jì),因此可以在合理的時間內(nèi)搜索到有效可行的分布式訓(xùn)練方案。

Stable Diffusion10?

關(guān)于Colossal-AI

通用深度學(xué)習(xí)系統(tǒng)Colossal-AI面向大模型時代,它可實(shí)現(xiàn)高效快速部署AI大模型訓(xùn)練和推理,降低AI大模型應(yīng)用成本。

自開源以來,Colossal-AI已經(jīng)多次在GitHub熱榜位列世界第一,獲得GitHub Star超七千顆,并成功入選SC、AAAI、PPoPP等國際AI與HPC頂級會議的官方教程。

?Stable Diffusion10

Colossal-AI相關(guān)解決方案已成功在自動駕駛、云計(jì)算、零售、醫(yī)藥、芯片等行業(yè)知名廠商落地應(yīng)用,廣受好評。

例如近期爆火的ChatGPT,尚未開源且不具備聯(lián)網(wǎng)功能。Colossal-AI已成功幫助某世界500強(qiáng)企業(yè),開發(fā)具備在線搜索引擎能力增強(qiáng)的聊天機(jī)器人模型。

開源地址:
https://github.com/hpcaitech/ColossalAI

參考鏈接:
https://www.hpc-ai.tech/blog/colossal-ai-0-2-0

?文章來源地址http://www.zghlxwxcb.cn/news/detail-502696.html

到了這里,關(guān)于Stable Diffusion10的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 使用OpenVINO?在算力魔方上加速stable diffusion模型

    使用OpenVINO?在算力魔方上加速stable diffusion模型

    作者:武卓博士 英特爾AI布道師 ? ? ? ? ???劉力? ? ? ? 英特爾物聯(lián)網(wǎng)行業(yè)創(chuàng)新大使 什么是 stable diffusion 模型? Stable Diffusion是stability.ai開源的AI圖像生成模型,實(shí)現(xiàn)輸入文字,生成圖像的功能。Stable Diffusion將AI圖像生成提升到了全新高度,將引發(fā)媒體創(chuàng)作領(lǐng)域的革命。

    2024年02月11日
    瀏覽(18)
  • stable-diffusion-webui AutoDL 算力平臺后臺啟動命令

    stable-diffusion-webui AutoDL 算力平臺后臺啟動命令

    AutoDL官網(wǎng):AutoDL算力云 | 彈性、好用、省錢。租GPU就上AutoDL AutoDL 算力平臺后臺啟動命令 備注: COMMANDLINE_ARGS=\\\"--share --gradio-debug --port 6006\\\"? ? 要改成 COMMANDLINE_ARGS=\\\"--listen --port 6006\\\"? 不然服務(wù)啟動的是臨時會話,72小時后服務(wù)可能會過期! 常見問題: 問題1: ValueError: When loc

    2024年02月15日
    瀏覽(90)
  • 從零開始訓(xùn)練 Stable Diffusion 的成本 < 16 萬美元

    我們想知道使用我們的流數(shù)據(jù)集、Composer 和 MosaicML 云平臺從頭開始訓(xùn)練穩(wěn)定擴(kuò)散模型需要多少時間(和金錢)。我們的結(jié)果:13 天內(nèi)我們將花費(fèi) 79,000 個 A100 小時,總培訓(xùn)成本不到 160,000 美元。我們的工具不僅將時間和成本減少了 2.5 倍,而且還具有可擴(kuò)展性和簡單易用性。

    2024年02月11日
    瀏覽(17)
  • Stable Diffusion10

    Stable Diffusion10

    這次是10 之Stable Diffusion2.0?算力成本驟降 從AI畫畫到NLP大模型,AIGC的落地成本被一次性打下來了! 話不多說,直接看結(jié)果: Stable Diffusion 2.0訓(xùn)練/微調(diào)/推理,顯存消耗最多可節(jié)省5.6倍,使硬件成本直降至 1/46 ,一行代碼即可啟用; 1750億參數(shù)大模型BLOOM單機(jī)推理,顯存消耗節(jié)

    2024年02月11日
    瀏覽(16)
  • 10分鐘搭建Stable Diffusion

    10分鐘搭建Stable Diffusion

    人工智能生成內(nèi)容(Artificial Intelligence Generated Content,簡稱 AIGC)是當(dāng)下最火的概念之一。AIGC 被認(rèn)為是繼專業(yè)生成內(nèi)容(Professional Generated Content, PGC)和用戶生成內(nèi)容(User Generated Content, UGC)之后,利用人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)方式。 AI 生成內(nèi)容的形式相當(dāng)豐富

    2024年02月11日
    瀏覽(23)
  • 【stable diffusion】Win10部署本地教程

    【stable diffusion】Win10部署本地教程

    配置stable diffusion需要安裝pycharm、anaconda,還有cuda用于gpu加速。這里由于我之前跑神經(jīng)網(wǎng)絡(luò)已經(jīng)都裝了,就省略了。 AUTOMATIC1111 創(chuàng)建了Stable Diffusion web UI,因此基本是按照這里進(jìn)行部署的 https://github.com/AUTOMATIC1111/stable-diffusion-webui git是用來在github下載項(xiàng)目的,跟在github網(wǎng)頁上直

    2024年02月03日
    瀏覽(25)
  • windows10 stable-diffusion-webui

    win10 conda Anaconda+PyTorch環(huán)境搭建 git 下載新版的stable-diffusion-webui 這里用的v1.1.0 下載后解壓 在conda虛擬環(huán)境下進(jìn)入剛剛解壓的目錄 也可以修改一下啟動腳本,自動調(diào)用conda啟動環(huán)境 https://github.com/AUTOMATIC1111/stable-diffusion-webui https://zhuanlan.zhihu.com/p/616411275 https://mirrors.tuna.tsinghua.

    2024年02月17日
    瀏覽(94)
  • Stable-Diffusion|window10安裝GPU版本的 Stable-Diffusion-WebUI遇到的一些問題(一)

    Stable-Diffusion|window10安裝GPU版本的 Stable-Diffusion-WebUI遇到的一些問題(一)

    教程主要參考: AI繪畫第一步,安裝Stable-Diffusion-WebUI全過程 ! Stable Diffusion WebUI使用手冊(正體中文)|Ivon的部落格 具體記錄一下筆者除了按照上述教程,遇到坑的地方 python一定要3.10 如果不是,就新建一個conda環(huán)境 安裝python庫的時候可以用其他源: 筆者之前設(shè)置過,跳過 此

    2024年02月17日
    瀏覽(98)
  • stable-diffusion-webui安裝教程windows10

    stable-diffusion-webui安裝教程windows10

    本教程提及的文件都在:https://share.weiyun.com/S9QZe9cb,請自行下載獲取。 雙擊 python-3.10.6-amd64.exe ,一路確認(rèn)。 右鍵單擊 屏幕左下角的windows圖標(biāo)(開始菜單),選擇并點(diǎn)擊 Windows Powershell ,在彈出來的藍(lán)框里輸入 nvidia-smi ,在下圖紅框處查看CUDA版本: 在https://developer.nvidia.co

    2023年04月13日
    瀏覽(22)
  • 簡明 Stable Diffusion for windows 10 本地化部署

    簡明 Stable Diffusion for windows 10 本地化部署

    提示:這里可以添加學(xué)習(xí)目標(biāo) 最近各種 AI 很火爆呀,特別是 ChatGPT 發(fā)布以后,那就想著不能落下呀,所以就研究了一下 Stable Diffusion,網(wǎng)上也找了各種教程,這里我被各種版本各種模型搞的暈頭轉(zhuǎn)向的,而且有些教程是過時的,所以就有了這篇文章。如有錯誤之處,歡迎指正

    2024年02月16日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包