国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大語(yǔ)言模型的分布式訓(xùn)練

這篇具有很好參考價(jià)值的文章主要介紹了大語(yǔ)言模型的分布式訓(xùn)練。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

什么是大語(yǔ)言模型

大語(yǔ)言模型(Large Language Model,縮寫LLM),也稱大型語(yǔ)言模型,是一種人工智能模型,旨在理解和生成人類語(yǔ)言。它們?cè)诖罅康奈谋緮?shù)據(jù)上進(jìn)行訓(xùn)練,可以執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析等等。LLM的特點(diǎn)是規(guī)模龐大,包含數(shù)十億的參數(shù),幫助它們學(xué)習(xí)語(yǔ)言數(shù)據(jù)中的復(fù)雜模式。
訓(xùn)練方式
訓(xùn)練語(yǔ)言模型需要向其提供大量的文本數(shù)據(jù),模型利用這些數(shù)據(jù)來(lái)學(xué)習(xí)人類語(yǔ)言的結(jié)構(gòu)、語(yǔ)法和語(yǔ)義。這個(gè)過(guò)程通常是通過(guò)無(wú)監(jiān)督學(xué)習(xí)完成的,使用一種叫做自我監(jiān)督學(xué)習(xí)的技術(shù)。在自我監(jiān)督學(xué)習(xí)中,模型通過(guò)預(yù)測(cè)序列中的下一個(gè)詞或標(biāo)記,為輸入的數(shù)據(jù)生成自己的標(biāo)簽,并給出之前的詞。訓(xùn)練過(guò)程包括兩個(gè)主要步驟:預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-truning):在預(yù)訓(xùn)練階段,模型從一個(gè)巨大的、多樣化的數(shù)據(jù)集中學(xué)習(xí),通常包含來(lái)自不同來(lái)源的數(shù)十億詞匯,如網(wǎng)站、書籍和文章。這個(gè)階段允許模型學(xué)習(xí)一般的語(yǔ)言模式和表征。在微調(diào)階段,模型在與目標(biāo)任務(wù)或領(lǐng)域相關(guān)的更具體、更小的數(shù)據(jù)集上進(jìn)一步訓(xùn)練。這有助于模型微調(diào)其理解,并適應(yīng)任務(wù)的特殊要求。
面臨的挑戰(zhàn)
1. 資源消耗巨大:訓(xùn)練LLM需要大量的計(jì)算資源,這使得較小的組織或研究人員在開(kāi)發(fā)和部署這些模型方面面臨挑戰(zhàn)。此外,與訓(xùn)練LLM有關(guān)的能源消耗也引起了一定程度的環(huán)境問(wèn)題。
2. 輸出可能帶有偏見(jiàn):由于訓(xùn)練數(shù)據(jù)中可能帶有偏見(jiàn),而LLM可!以學(xué)習(xí)并延續(xù)其訓(xùn)練數(shù)據(jù)中的偏見(jiàn),導(dǎo)致有偏見(jiàn)的輸出,可能是冒犯性的、歧視性甚至是錯(cuò)誤性的觀念。
3. 理解能力受限:雖然大語(yǔ)言模型有能力產(chǎn)生看似連貫和和與背景上下文相關(guān)的文本,但LLM有時(shí)對(duì)其所寫的概念缺乏深刻的理解,這很可能導(dǎo)致不正確或無(wú)意義的輸出。

什么是分布式計(jì)算

和集中式計(jì)算相反,分布式計(jì)算的一個(gè)計(jì)算過(guò)程將會(huì)在多臺(tái)機(jī)器上進(jìn)行。組件之間彼此進(jìn)行交互以實(shí)現(xiàn)一個(gè)共同的目標(biāo),把需要進(jìn)行大量計(jì)算的工程數(shù)據(jù)分區(qū)成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,再上傳運(yùn)算結(jié)果后,將結(jié)果統(tǒng)一合并得出數(shù)據(jù)結(jié)論。
如何實(shí)現(xiàn)
- 如何拆分計(jì)算邏輯
- 如何分發(fā)計(jì)算邏輯
拆分邏輯
從在哪里發(fā)生計(jì)算的角度來(lái)看,所有的計(jì)算邏輯都能夠劃分為這兩種類型:
1能夠分發(fā)到各個(gè)節(jié)點(diǎn)上并行執(zhí)行的
2需要經(jīng)過(guò)一定量的結(jié)果合并之后才能繼續(xù)執(zhí)行的
兩者之間協(xié)調(diào)完成還需要解決 通訊、容災(zāi)、任務(wù)調(diào)度等問(wèn)題
首先對(duì)此公開(kāi)提出解決方案的是Google的MapReduce論文
Map Job 對(duì)應(yīng)的就是可以在各個(gè)節(jié)點(diǎn)上一起執(zhí)行相互不影響的邏輯
Reduce Job 處理的就是Map產(chǎn)生的中間結(jié)果
Map和Reduce之間通過(guò)一個(gè)Shuffle過(guò)程來(lái)鏈接
分發(fā)邏輯
與集中式計(jì)算最大的不同點(diǎn):移動(dòng)計(jì)算邏輯而不移動(dòng)數(shù)據(jù)

大語(yǔ)言模型的分布式訓(xùn)練

大模型可以帶來(lái)更精準(zhǔn)強(qiáng)大的語(yǔ)義理解和推理能力,所以隨著規(guī)模計(jì)算的普及和數(shù)據(jù)集的增大,使得模型的參數(shù)數(shù)量也以指數(shù)級(jí)的速度增長(zhǎng)。訓(xùn)練這樣大的模型非常具有挑戰(zhàn)性,具體原因如下:
對(duì)顯存的挑戰(zhàn)。即使是最大的GPU的主內(nèi)存也不可能適合這些模型的參數(shù),比如一個(gè)175B的GPT-3模型需要(175B * 4bytes)就是700GB模型參數(shù)空間,從而梯度也是700G,優(yōu)化器狀態(tài)是1400G,一共2.8TB。
對(duì)計(jì)算的挑戰(zhàn)。即使我們能夠把模型放進(jìn)單個(gè)GPU中(例如,通過(guò)在主機(jī)和設(shè)備內(nèi)存之間交換參數(shù)),但是其所需的大量計(jì)算操作會(huì)導(dǎo)致漫長(zhǎng)訓(xùn)練時(shí)間(例如,使用單個(gè)V100 NVIDIA GPU來(lái)訓(xùn)練1750億個(gè)參數(shù)的GPT-3需要大約288年)。如何計(jì)算可以參見(jiàn) 2104.04473的附錄 FLOATING-POINT OPERATIONS。
對(duì)計(jì)算的挑戰(zhàn)。不同并行策略對(duì)應(yīng)的通信模式和通信量不同。
    數(shù)據(jù)并行:通信發(fā)生在后向傳播的梯度規(guī)約all-reduce操作,通信量是每個(gè)GPU之上模型的大小。
    模型并行:在下面會(huì)詳述。
這就需要采用并行化來(lái)加速。使用硬件加速器來(lái)橫向擴(kuò)展(scale out)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練主要有兩種模式:數(shù)據(jù)并行,模型并行。
數(shù)據(jù)并行
數(shù)據(jù)并行模式會(huì)在每個(gè)worker之上復(fù)制一份模型,這樣每個(gè)worker都有一個(gè)完整模型的副本。輸入數(shù)據(jù)集是分片的,一個(gè)訓(xùn)練的小批量數(shù)據(jù)將在多個(gè)worker之間分割;
worker定期匯總它們的梯度,以確保所有worker看到一個(gè)一致的權(quán)重版本。對(duì)于無(wú)法放進(jìn)單個(gè)worker的大型模型,人們可以在模型之中較小的分片上使用數(shù)據(jù)并行。
數(shù)據(jù)并行擴(kuò)展通常效果很好,但有兩個(gè)限制:
    a)超過(guò)某一個(gè)點(diǎn)之后,每個(gè)GPU的batch size變得太小,這降低了GPU的利用率,增加了通信成本;
    b)可使用的最大設(shè)備數(shù)就是batch size,著限制了可用于訓(xùn)練的加速器數(shù)量。
模型并行
WHY:
    業(yè)界內(nèi)訓(xùn)練的模型越來(lái)越大,模型朝著更深和更寬的方向發(fā)展。以自然語(yǔ)言處理(NLP)領(lǐng)域?yàn)槔P蛷腂ert發(fā)展到GPT,模型規(guī)模從數(shù)億參數(shù)量增加到數(shù)百億甚至是數(shù)千億。當(dāng)參數(shù)規(guī)模為千億時(shí),存儲(chǔ)模型參數(shù)就需要數(shù)百GB的顯存空間,超出單個(gè)GPU卡的顯存容量。顯然,僅靠數(shù)據(jù)并行無(wú)法滿足超大規(guī)模模型訓(xùn)練對(duì)于顯存的需求。為了解決這個(gè)問(wèn)題,可以采用模型并行技術(shù)。

人們會(huì)使用一些內(nèi)存管理技術(shù),如激活檢查點(diǎn)(activation checkpointing)來(lái)克服數(shù)據(jù)并行的這種限制,也會(huì)使用模型并行來(lái)對(duì)模型進(jìn)行分區(qū)來(lái)解決這兩個(gè)挑戰(zhàn),使得權(quán)重及其關(guān)聯(lián)的優(yōu)化器狀態(tài)不需要同時(shí)駐留在處理器上。

WHAT:
    模型并行模式會(huì)讓一個(gè)模型的內(nèi)存和計(jì)算分布在多個(gè)worker之間,以此來(lái)解決一個(gè)模型在一張卡上無(wú)法容納的問(wèn)題,其解決方法是把模型放到多個(gè)設(shè)備之上。
模型并行分為兩種:流水線并行和張量并行,就是把模型切分的方式。
流水線并行
流水線并行(pipeline model parallel)是把模型不同的層放到不同設(shè)備之上,比如前面幾層放到一個(gè)設(shè)備之上,中間幾層放到另外一個(gè)設(shè)備上,最后幾層放到第三個(gè)設(shè)備之上。
張量并行
張量并行則是層內(nèi)分割,把某一個(gè)層做切分,放置到不同設(shè)備之上,也可以理解為把矩陣運(yùn)算分配到不同的設(shè)備之上,比如把某個(gè)矩陣乘法切分成為多個(gè)矩陣乘法放到不同設(shè)備之上。
通信
張量并行:通信發(fā)生在每層的前向傳播和后向傳播過(guò)程之中,通信類型是all-reduce,不但單次通信數(shù)據(jù)量大,并且通信頻繁。
流水線并行:通信在流水線階段相鄰的切分點(diǎn)之上,通信類型是P2P通信,單詞通信數(shù)據(jù)量較少但是比較頻繁,而且因?yàn)榱魉€的特點(diǎn),會(huì)產(chǎn)生GPU空閑時(shí)間,這里稱為流水線氣泡(Bubble)。

PS

NCCL是Nvidia Collective multi-GPU Communication Library的簡(jiǎn)稱,它是一個(gè)實(shí)現(xiàn)多GPU的collective communication通信(all-gather, reduce, broadcast)庫(kù),Nvidia做了很多優(yōu)化,以在PCIe、Nvlink、InfiniBand上實(shí)現(xiàn)較高的通信速度。

All-reduce:從多個(gè)sender那里接收數(shù)據(jù),最終combine到每一個(gè)節(jié)點(diǎn)上。

Transformer Attention MLP GeLU Dropout

未完待續(xù)…

引用

https://blog.csdn.net/weixin_47364682/article/details/122674457
https://zhuanlan.zhihu.com/p/507877303
https://zhuanlan.zhihu.com/p/617087561
https://zhuanlan.zhihu.com/p/28653942
https://zhuanlan.zhihu.com/p/129912419
https://www.zhihu.com/question/508671222文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-686544.html

到了這里,關(guān)于大語(yǔ)言模型的分布式訓(xùn)練的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大模型學(xué)習(xí)筆記08——分布式訓(xùn)練

    模型規(guī)模的擴(kuò)大,對(duì)硬件(算力、內(nèi)存)的發(fā)展提出要求。然而,因?yàn)閮?nèi)存墻的存在,單一設(shè)備的算力及容量,受限于物理定律,持續(xù)提高芯片的集成越來(lái)越困難,難以跟上模型擴(kuò)大的需求。 為了解決算力增速不足的問(wèn)題,人們考慮用多節(jié)點(diǎn)集群進(jìn)行分布式訓(xùn)練,以提升算力

    2024年01月23日
    瀏覽(27)
  • LLMs開(kāi)源模型們的分布式訓(xùn)練和量化

    LLMs開(kāi)源模型們的分布式訓(xùn)練和量化

    前一篇博文整理了: LLMs開(kāi)源模型們和數(shù)據(jù)集簡(jiǎn)介 這篇博文主要整理一下目前流行的訓(xùn)練方法和量化。 (圖自Towards a Unified View of Parameter-Efficient Transfer Learning) 使通用LLMs適應(yīng)下游任務(wù)的最常見(jiàn)方法是微調(diào)所有模型參數(shù)或微調(diào)尾層參數(shù)(Freeze)。然而這會(huì)導(dǎo)致每個(gè)任務(wù)都有一

    2024年02月07日
    瀏覽(50)
  • 如何借助分布式存儲(chǔ) JuiceFS 加速 AI 模型訓(xùn)練

    傳統(tǒng)的機(jī)器學(xué)習(xí)模型,數(shù)據(jù)集比較小,模型的算法也比較簡(jiǎn)單,使用單機(jī)存儲(chǔ),或者本地硬盤就足夠了,像 JuiceFS 這樣的分布式存儲(chǔ)并不是必需品。 隨著近幾年深度學(xué)習(xí)的蓬勃發(fā)展,越來(lái)越多的團(tuán)隊(duì)開(kāi)始遇到了單機(jī)存儲(chǔ)的瓶頸,分布式存儲(chǔ)在 AI 領(lǐng)域的重要性不斷凸顯。AI 團(tuán)

    2023年04月26日
    瀏覽(29)
  • TensorFlow 高級(jí)技巧:自定義模型保存、加載和分布式訓(xùn)練

    本篇文章將涵蓋 TensorFlow 的高級(jí)應(yīng)用,包括如何自定義模型的保存和加載過(guò)程,以及如何進(jìn)行分布式訓(xùn)練。 在 TensorFlow 中,我們可以通過(guò)繼承 tf.train.Checkpoint 來(lái)自定義模型的保存和加載過(guò)程。 以下是一個(gè)例子: TensorFlow 提供了 tf.distribute.Strategy API,讓我們可以在不同的設(shè)備

    2024年02月15日
    瀏覽(30)
  • LLM-分布式訓(xùn)練工具(一):DeepSpeed【微軟】【大模型分布式訓(xùn)練工具,實(shí)現(xiàn)ZeRO并行訓(xùn)練算法】【zero3配置將模型參數(shù)切分后分配到不同的顯卡中,突破單張顯卡容量不足以加載模型參數(shù)的限制】

    DeepSpeed是微軟推出的大規(guī)模模型分布式訓(xùn)練的工具,主要實(shí)現(xiàn)了ZeRO并行訓(xùn)練算法。 原始文檔鏈接: DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo

    2024年02月16日
    瀏覽(23)
  • 用通俗易懂的方式講解大模型分布式訓(xùn)練并行技術(shù):MOE并行

    用通俗易懂的方式講解大模型分布式訓(xùn)練并行技術(shù):MOE并行

    前面的文章中講述了數(shù)據(jù)并行、流水線并行、張量并行、序列并行、自動(dòng)并行等多種并行技術(shù)。但現(xiàn)在的模型越來(lái)越大,訓(xùn)練樣本越來(lái)越多,每個(gè)樣本都需要經(jīng)過(guò)模型的全部計(jì)算,這就導(dǎo)致了訓(xùn)練成本的平方級(jí)增長(zhǎng)。 而當(dāng)我們希望在犧牲極少的計(jì)算效率的情況下,把模型規(guī)模

    2024年02月02日
    瀏覽(29)
  • 【深入了解PyTorch】PyTorch分布式訓(xùn)練:多GPU、數(shù)據(jù)并行與模型并行

    在深度學(xué)習(xí)領(lǐng)域,模型的復(fù)雜性和數(shù)據(jù)集的巨大規(guī)模使得訓(xùn)練過(guò)程變得極具挑戰(zhàn)性。為了加速訓(xùn)練過(guò)程,利用多個(gè)GPU進(jìn)行并行計(jì)算是一種常見(jiàn)的方法。PyTorch作為一種流行的深度學(xué)習(xí)框架,提供了強(qiáng)大的分布式訓(xùn)練工具,使得多GPU、數(shù)據(jù)并行和模型并行等技術(shù)變得更加容易實(shí)現(xiàn)

    2024年02月12日
    瀏覽(25)
  • 算法、語(yǔ)言混編、分布式鎖與分布式ID、IO模型

    算法、語(yǔ)言混編、分布式鎖與分布式ID、IO模型

    數(shù)據(jù)結(jié)構(gòu)和算法是程序的基石。我們使用的所有數(shù)據(jù)類型就是一種數(shù)據(jù)結(jié)構(gòu)(數(shù)據(jù)的組織形式),寫的程序邏輯就是算法。 算法是指用來(lái)操作數(shù)據(jù)、解決程序問(wèn)題的一組方法。 對(duì)于同一個(gè)問(wèn)題,使用不同的算法,也許最終得到的結(jié)果是一樣的,但在過(guò)程中消耗的資源(空間

    2024年02月08日
    瀏覽(21)
  • 【金猿案例展】智譜AI——基于全閃分布式并行文件存儲(chǔ)打造高速大模型訓(xùn)練平臺(tái)...

    【金猿案例展】智譜AI——基于全閃分布式并行文件存儲(chǔ)打造高速大模型訓(xùn)練平臺(tái)...

    ? 焱融科技案例 本項(xiàng)目案例由焱融科技投遞并參與“數(shù)據(jù)猿年度金猿策劃活動(dòng)——2023大數(shù)據(jù)產(chǎn)業(yè)年度創(chuàng)新服務(wù)企業(yè)榜單/獎(jiǎng)項(xiàng)”評(píng)選。 大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新服務(wù)媒體 ——聚焦數(shù)據(jù)?· 改變商業(yè) 自 ChatGPT 爆火以來(lái),中國(guó)的 AI 產(chǎn)業(yè)已經(jīng)進(jìn)入名副其實(shí)的“百模大戰(zhàn)”?!吨袊?guó)人工智能

    2024年02月02日
    瀏覽(21)
  • 【分布式·大數(shù)據(jù)】大模型賽道如何實(shí)現(xiàn)華麗的彎道超車 —— AI/ML訓(xùn)練賦能解決方案

    【分布式·大數(shù)據(jù)】大模型賽道如何實(shí)現(xiàn)華麗的彎道超車 —— AI/ML訓(xùn)練賦能解決方案

    導(dǎo)讀 :Alluxio作為一款強(qiáng)大的分布式統(tǒng)一大數(shù)據(jù)虛擬文件系統(tǒng),已經(jīng)在眾多領(lǐng)域展現(xiàn)出了其卓越的應(yīng)用價(jià)值,并且為AI/ML訓(xùn)練賦能提供了一個(gè)全新的解決方案。 在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)的決策和模型訓(xùn)練已成為現(xiàn)代應(yīng)用和研究的核心。伴隨大模型技術(shù)

    2024年02月08日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包