国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

中英雙語(yǔ)大模型ChatGLM論文閱讀筆記

這篇具有很好參考價(jià)值的文章主要介紹了中英雙語(yǔ)大模型ChatGLM論文閱讀筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文傳送門:
[1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling
[2] Glm-130b: An open bilingual pre-trained model
Github鏈接:
THUDM/ChatGLM-6B

筆記

Abstract

  1. GLM-130BGPT-3 175B(davinci)相比,參數(shù)量減少,但性能提升了。
  2. INT4 quantization without post training
    INT4量化是一種將模型的權(quán)重和激活從使用較高位寬(如32位或16位浮點(diǎn)數(shù))的表示減少到使用4位整數(shù)(INT4)的表示的過(guò)程。量化可以顯著減少模型的內(nèi)存需求和計(jì)算量,因此可以在資源有限的硬件上運(yùn)行更大的模型,或者加快模型的推理速度。
    不進(jìn)行后續(xù)訓(xùn)練(post-training)的情況下進(jìn)行INT4量化是一個(gè)挑戰(zhàn),因?yàn)橥ǔA炕瘯?huì)引入噪聲和損失精度,影響模型的性能。后續(xù)訓(xùn)練(也稱為量化感知訓(xùn)練)通常被用來(lái)微調(diào)量化后的模型,以恢復(fù)一些由于量化造成的性能損失。因此,如果沒(méi)有進(jìn)行這種微調(diào)就能實(shí)現(xiàn)幾乎沒(méi)有性能損失的INT4量化,就意味著模型具有非常好的量化魯棒性。
    這樣的成果表明,GLM-130B模型可以有效地進(jìn)行低位寬量化,同時(shí)保持其預(yù)測(cè)性能,這在實(shí)際應(yīng)用中非常重要,因?yàn)樗沟媚P湍軌蛟谄胀ㄏM(fèi)級(jí)硬件上運(yùn)行,而不是僅限于高性能服務(wù)器。這樣不僅可以降低使用成本,而且可以使得更廣泛的用戶群體和開發(fā)者能夠訪問(wèn)和使用這種大規(guī)模的模型。

Introduction

  1. 10B-scale model相比,訓(xùn)練100B-scale model需要解決的挑戰(zhàn):pre-training efficiencystability,convergence
  2. 預(yù)訓(xùn)練使用了GPU集群,包含96個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配置8張 40G NVIDIA DGX-A100 GPU。訓(xùn)練時(shí)間為2022/5/6~2022/7/3。
  3. 架構(gòu):使用了[2]中的General Language Model (GLM) algorithm。
  4. Pre-LN(預(yù)層歸一化)AND 訓(xùn)練vs.推理的GPU資源使用情況
  • 在Transformer模型中,Pre-LN是指在每個(gè)子層(如自注意力層和前饋網(wǎng)絡(luò)層)的輸入之前進(jìn)行層歸一化。這種方式通??梢蕴岣吣P偷挠?xùn)練穩(wěn)定性,尤其是在訓(xùn)練非常深的網(wǎng)絡(luò)時(shí)。Pre-LN有助于解決深度Transformer模型中的梯度消失問(wèn)題,因?yàn)樗軌蚴固荻戎苯恿飨蜉^深的層。
大模型訓(xùn)練和推理(inference)階段使用的GPU數(shù)量通常有很大的區(qū)別,這主要基于以下幾個(gè)方面:

1. 資源需求:
   - 訓(xùn)練:訓(xùn)練階段需要處理大量的數(shù)據(jù)并進(jìn)行重復(fù)的前向傳播和反向傳播計(jì)算,這需要大量的計(jì)算資源。因此,通常會(huì)使用更多的GPU,甚至是成百上千的GPU,以加快訓(xùn)練速度和處理大規(guī)模數(shù)據(jù)集。
   - 推理:推理階段通常只需要進(jìn)行單次的前向傳播,計(jì)算量相對(duì)較小,因此通常需要較少的GPU。在許多應(yīng)用中,一個(gè)或幾個(gè)GPU就足夠用于推理。

2. 并行策略:
   - 數(shù)據(jù)并行:在訓(xùn)練時(shí),經(jīng)常使用數(shù)據(jù)并行策略,將大型數(shù)據(jù)集分割成小批量,分配到多個(gè)GPU上并行處理。
   - 模型并行:對(duì)于極大的模型,可能需要使用模型并行策略,將模型的不同部分放在不同的GPU上。
   - 推理時(shí)并行:在推理時(shí),通常不需要模型并行,因?yàn)橐淮沃惶幚硪粋€(gè)或幾個(gè)請(qǐng)求。

3. 效率和成本:
   - 訓(xùn)練大模型通常是一項(xiàng)耗時(shí)且昂貴的任務(wù),使用更多的GPU可以提高訓(xùn)練效率,但也大大增加了成本。
   - 推理需要盡可能高效和經(jīng)濟(jì),特別是在生產(chǎn)環(huán)境中,因此通常會(huì)盡量減少所需的GPU數(shù)量,以降低成本。

4. 可擴(kuò)展性和靈活性:
   - 訓(xùn)練階段的模型通常被設(shè)計(jì)為能夠在大規(guī)模分布式系統(tǒng)上擴(kuò)展。
   - 推理模型通常需要在各種環(huán)境中靈活部署,包括邊緣設(shè)備,因此可能更注重模型的壓縮和優(yōu)化。

總的來(lái)說(shuō),訓(xùn)練大模型時(shí)使用的GPU數(shù)量遠(yuǎn)多于推理階段,主要是因?yàn)橛?xùn)練階段的資源和計(jì)算需求遠(yuǎn)大于推理。然而,隨著量化技術(shù)和模型優(yōu)化的發(fā)展,推理階段所需的資源正在逐漸減少,允許即使是大模型也能在資源受限的環(huán)境中運(yùn)行。

想要查大模型相關(guān)的論文 英文關(guān)鍵詞,論文閱讀,論文閱讀,筆記,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,nlp

  1. 為什么選擇130B:?jiǎn)畏?wù)器支持。130億參數(shù)的模型規(guī)模支持在單個(gè)含有A100 (8×40G) GPU的服務(wù)器上進(jìn)行推理計(jì)算。

The design choices of GLM-130B

  1. Inductive bias:歸納偏置
在機(jī)器學(xué)習(xí)中,"inductive bias"指的是一個(gè)學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某些模式假設(shè)的偏好,這些偏好影響了模型對(duì)數(shù)據(jù)的泛化能力。換句話說(shuō),就是當(dāng)面對(duì)有限的數(shù)據(jù)時(shí),算法如何推廣到未見過(guò)的數(shù)據(jù)。它是算法的一種內(nèi)在屬性,決定了算法在學(xué)習(xí)時(shí)對(duì)解決問(wèn)題的途徑和方向的偏好。

不同的機(jī)器學(xué)習(xí)模型有不同的歸納偏置。例如:

決策樹傾向于尋找數(shù)據(jù)中的分層邏輯規(guī)則。
支持向量機(jī)(SVM)通過(guò)最大化邊界來(lái)尋找分類決策邊界。
神經(jīng)網(wǎng)絡(luò)根據(jù)其層次結(jié)構(gòu)尋找可以通過(guò)逐層變換來(lái)逼近的復(fù)雜模式。
在大型語(yǔ)言模型(LLM)如GLM-130B的背景下,模型架構(gòu)(如Transformer架構(gòu))定義了它對(duì)語(yǔ)言數(shù)據(jù)中哪些特征和模式的偏好。例如,Transformer模型通過(guò)自注意力機(jī)制捕捉長(zhǎng)距離依賴,這是它的歸納偏置之一。

然而,由于大型模型的參數(shù)量極大,探索不同架構(gòu)設(shè)計(jì)的計(jì)算成本是非常高的,因此通常需要在設(shè)計(jì)階段就做出合理的選擇,以確定如何構(gòu)建模型才能最好地捕捉和泛化數(shù)據(jù)中的模式。這段文字表明,GLM-130B的設(shè)計(jì)者意識(shí)到了這一點(diǎn),并且在模型設(shè)計(jì)中做出了一些獨(dú)特的選擇,以平衡歸納偏置和計(jì)算成本。
  1. GLM-130B沒(méi)有采用傳統(tǒng)的GPT架構(gòu),而是使用bidirectional GLM作為backbone。

The training stability of GLM-130B

  1. gradient norm的定義
    想要查大模型相關(guān)的論文 英文關(guān)鍵詞,論文閱讀,論文閱讀,筆記,自然語(yǔ)言處理,語(yǔ)言模型,人工智能,nlp
    梯度范數(shù)的具體變化情況也可能受到多種因素的影響,包括模型的復(fù)雜性、數(shù)據(jù)的多樣性、優(yōu)化算法的選擇等。在某些情況下,梯度范數(shù)可能會(huì)因?yàn)槟P拖萑刖植孔钚≈祷虬包c(diǎn)而暫時(shí)增大。此外,對(duì)于一些更復(fù)雜的模型或非凸優(yōu)化問(wèn)題,梯度范數(shù)的變化可能會(huì)更加復(fù)雜,不一定遵循單調(diào)下降的趨勢(shì)。因此,梯度范數(shù)的監(jiān)控通常被用作訓(xùn)練過(guò)程中健康狀態(tài)的一個(gè)指標(biāo),幫助研究人員和工程師判斷訓(xùn)練是否在進(jìn)行得當(dāng)。

框架總結(jié)

1. 模型架構(gòu)

理解模型的基礎(chǔ)架構(gòu)以及與其他模型(如GPT-3等)的差異。

2. 預(yù)訓(xùn)練設(shè)置

了解模型預(yù)訓(xùn)練的具體過(guò)程,包括所使用的數(shù)據(jù)集、預(yù)訓(xùn)練目標(biāo)、以及如何處理模型輸入。

3. 訓(xùn)練穩(wěn)定性

模型訓(xùn)練的穩(wěn)定性對(duì)模型的性能至關(guān)重要。需關(guān)注文中提到的穩(wěn)定性問(wèn)題及解決方案。

4. 并行策略和模型配置

理解如何利用并行計(jì)算策略有效地訓(xùn)練這樣大規(guī)模的模型。

5. 量化和推理優(yōu)化

模型如何通過(guò)量化技術(shù)減少資源消耗,并優(yōu)化推理過(guò)程。

6. 結(jié)果分析

模型在各種任務(wù)上的性能如何,特別是與其他大型模型相比。

7. 相關(guān)工作

熟悉本文中提到的相關(guān)工作,以便對(duì)整個(gè)領(lǐng)域有更好的理解。

8. 結(jié)論和經(jīng)驗(yàn)教訓(xùn)

關(guān)注作者從訓(xùn)練過(guò)程中學(xué)到的經(jīng)驗(yàn)教訓(xùn)。

9. 倫理評(píng)估

了解作者如何處理與大型語(yǔ)言模型相關(guān)的倫理風(fēng)險(xiǎn)。

10. 可復(fù)現(xiàn)性

文中如何確保實(shí)驗(yàn)結(jié)果的可復(fù)現(xiàn)性,以及如何使研究成果對(duì)社區(qū)開放。

未完待續(xù)…文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-784084.html

到了這里,關(guān)于中英雙語(yǔ)大模型ChatGLM論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 離線生成雙語(yǔ)字幕,一鍵生成中英雙語(yǔ)字幕,基于AI大模型,ModelScope

    離線生成雙語(yǔ)字幕,一鍵生成中英雙語(yǔ)字幕,基于AI大模型,ModelScope

    離線生成雙語(yǔ)字幕整合包,一鍵生成中英雙語(yǔ)字幕,基于AI大模型 制作雙語(yǔ)字幕的方案網(wǎng)上有很多,林林總總,不一而足。制作雙語(yǔ)字幕的原理也極其簡(jiǎn)單,無(wú)非就是人聲背景音分離、語(yǔ)音轉(zhuǎn)文字、文字翻譯,最后就是字幕文件的合并,但美中不足之處這些環(huán)節(jié)中需要接口api的

    2024年02月21日
    瀏覽(37)
  • 【AI開源大模型】GLM-130B:開放的中英雙語(yǔ)預(yù)訓(xùn)練模型
  • ChatGLM基座:GLM(General Language Model)論文閱讀筆記

    ChatGLM基座:GLM(General Language Model)論文閱讀筆記

    現(xiàn)在有很多Pretrain model 的架構(gòu), 如Bert、GPT、T5等,但是當(dāng)時(shí)沒(méi)有一種模型能在NLU、有條件文本生成、無(wú)條件文本生成都有很好的表現(xiàn)。 一般預(yù)訓(xùn)練模型架構(gòu)分為三種:自回歸(GPT系列)、自編碼(Bert系列)、編碼器-解碼器(T5)。 作者概述了它們目前存在的問(wèn)題·: GPT:?jiǎn)?/p>

    2024年02月02日
    瀏覽(29)
  • 最強(qiáng)開源中英雙語(yǔ)大模型發(fā)布,340億參數(shù)超越Llama2-70B !

    最強(qiáng)開源中英雙語(yǔ)大模型發(fā)布,340億參數(shù)超越Llama2-70B !

    ? ? Aquila2模型全系開源地址: https://github.com/FlagAI-Open/Aquila2 https://model.baai.ac.cn/ https://huggingface.co/BAAI Aquila2-34B在代碼生成、考試、理解、推理、語(yǔ)言四個(gè)維度的22個(gè)評(píng)測(cè)基準(zhǔn)上,霸占了多個(gè)榜單TOP 1。 ?相較于大模型榜單分?jǐn)?shù),業(yè)內(nèi)更看重對(duì)推理、泛化等重要模型實(shí)際能力的

    2024年01月24日
    瀏覽(38)
  • 開源雙語(yǔ)對(duì)話語(yǔ)言模型 ChatGLM-6B 本地私有化部署

    開源雙語(yǔ)對(duì)話語(yǔ)言模型 ChatGLM-6B 本地私有化部署

    本文首發(fā)于:https://www.licorne.ink/2023/08/llm-chatglm-6b-local-deploy/ ChatGLM-6B 是一個(gè)開源的、支持中英雙語(yǔ)的對(duì)話語(yǔ)言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費(fèi)級(jí)的顯卡上進(jìn)行本地部署(INT4 量化級(jí)別下最低只需 6GB 顯存)。 ChatGL

    2024年02月10日
    瀏覽(105)
  • ChatGLM2-6B_ An Open Bilingual Chat LLM _ 開源雙語(yǔ)對(duì)話語(yǔ)言模型

    更強(qiáng)大的性能 :基于 ChatGLM 初代模型的開發(fā)經(jīng)驗(yàn),我們?nèi)嫔?jí)了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 [GLM]的混合目標(biāo)函數(shù),經(jīng)過(guò)了 1.4T 中英標(biāo)識(shí)符的預(yù)訓(xùn)練與人類偏好對(duì)齊訓(xùn)練,評(píng)測(cè)結(jié)果顯示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BB

    2024年04月14日
    瀏覽(26)
  • 【模型壓縮】 LPPN論文閱讀筆記

    【模型壓縮】 LPPN論文閱讀筆記

    LPPN: A Lightweight Network for Fast Phase Picking ?深度學(xué)習(xí)模型的問(wèn)題在于計(jì)算復(fù)雜度較高,在實(shí)際數(shù)據(jù)處理中需要面臨較高的處理代價(jià),且需要專用的加速處理設(shè)備,如GPU。隨著數(shù)據(jù)累積,迫切需要設(shè)計(jì)一種能夠保證精度的輕量化高速震相拾取模型,以提高處理海量數(shù)據(jù)的效率,這

    2024年02月16日
    瀏覽(58)
  • 【論文閱讀筆記】Mamba模型代碼理解

    【論文閱讀筆記】Mamba模型代碼理解

    官方實(shí)現(xiàn):state-spaces/mamba (github.com) 最簡(jiǎn)化實(shí)現(xiàn):johnma2006/mamba-minimal: Simple, minimal implementation of the Mamba SSM in one file of PyTorch. (github.com) 直接實(shí)現(xiàn):alxndrTL/mamba.py: A simple and efficient Mamba implementation in PyTorch and MLX. (github.com) 官方代碼做了大量?jī)?yōu)化,目錄層級(jí)較多,對(duì)于理解模型含

    2024年04月13日
    瀏覽(34)
  • Mistral 歐洲最強(qiáng)模型團(tuán)隊(duì)的野望;國(guó)內(nèi)大模型都是套殼LLaMA?Claude官方提示詞教程-中英雙語(yǔ);AI原生應(yīng)用難產(chǎn)了;AI Agents實(shí)踐經(jīng)驗(yàn) | ShowMeAI日?qǐng)?bào)

    Mistral 歐洲最強(qiáng)模型團(tuán)隊(duì)的野望;國(guó)內(nèi)大模型都是套殼LLaMA?Claude官方提示詞教程-中英雙語(yǔ);AI原生應(yīng)用難產(chǎn)了;AI Agents實(shí)踐經(jīng)驗(yàn) | ShowMeAI日?qǐng)?bào)

    ?? 日?qǐng)?bào)周刊合集 | ?? 生產(chǎn)力工具與行業(yè)應(yīng)用大全 | ?? 點(diǎn)贊關(guān)注評(píng)論拜托啦! https://www.businessinsider.com/openai-cofounder-ilya-sutskever-invisible-future-uncertain-2023-12 OpenAI 內(nèi)部「政變」余波仍在,除了陸續(xù)爆出的 Sam Altman 各類負(fù)面信息,前首席科學(xué)家 Ilya Sutskever 的終局也格外牽動(dòng)人心

    2024年02月04日
    瀏覽(29)
  • 多模態(tài)大模型-CogVLm 論文閱讀筆記

    多模態(tài)大模型-CogVLm 論文閱讀筆記

    論文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 時(shí)間 : 2023-11 機(jī)構(gòu) : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    瀏覽(20)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包