論文傳送門:
[1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling
[2] Glm-130b: An open bilingual pre-trained model
Github鏈接:
THUDM/ChatGLM-6B
筆記
Abstract
-
GLM-130B
和GPT-3 175B(davinci)
相比,參數(shù)量減少,但性能提升了。 -
INT4 quantization without post training
INT4量化是一種將模型的權(quán)重和激活從使用較高位寬(如32位或16位浮點(diǎn)數(shù))的表示減少到使用4位整數(shù)(INT4)的表示的過(guò)程。量化可以顯著減少模型的內(nèi)存需求和計(jì)算量,因此可以在資源有限的硬件上運(yùn)行更大的模型,或者加快模型的推理速度。
不進(jìn)行后續(xù)訓(xùn)練(post-training)的情況下進(jìn)行INT4量化是一個(gè)挑戰(zhàn),因?yàn)橥ǔA炕瘯?huì)引入噪聲和損失精度,影響模型的性能。后續(xù)訓(xùn)練(也稱為量化感知訓(xùn)練)通常被用來(lái)微調(diào)量化后的模型,以恢復(fù)一些由于量化造成的性能損失。因此,如果沒(méi)有進(jìn)行這種微調(diào)就能實(shí)現(xiàn)幾乎沒(méi)有性能損失的INT4量化,就意味著模型具有非常好的量化魯棒性。
這樣的成果表明,GLM-130B模型可以有效地進(jìn)行低位寬量化,同時(shí)保持其預(yù)測(cè)性能,這在實(shí)際應(yīng)用中非常重要,因?yàn)樗沟媚P湍軌蛟谄胀ㄏM(fèi)級(jí)硬件上運(yùn)行,而不是僅限于高性能服務(wù)器。這樣不僅可以降低使用成本,而且可以使得更廣泛的用戶群體和開發(fā)者能夠訪問(wèn)和使用這種大規(guī)模的模型。
Introduction
- 和
10B-scale model
相比,訓(xùn)練100B-scale model
需要解決的挑戰(zhàn):pre-training efficiency
,stability
,convergence
。 - 預(yù)訓(xùn)練使用了GPU集群,包含
96個(gè)節(jié)點(diǎn)
,每個(gè)節(jié)點(diǎn)配置8張 40G NVIDIA DGX-A100 GPU
。訓(xùn)練時(shí)間為2022/5/6~2022/7/3。 - 架構(gòu):使用了[2]中的
General Language Model (GLM) algorithm
。 - Pre-LN(預(yù)層歸一化)
AND
訓(xùn)練vs.推理的GPU資源使用情況
- 在Transformer模型中,Pre-LN是指在每個(gè)子層(如自注意力層和前饋網(wǎng)絡(luò)層)的輸入之前進(jìn)行層歸一化。這種方式通??梢蕴岣吣P偷挠?xùn)練穩(wěn)定性,尤其是在訓(xùn)練非常深的網(wǎng)絡(luò)時(shí)。Pre-LN有助于解決深度Transformer模型中的梯度消失問(wèn)題,因?yàn)樗軌蚴固荻戎苯恿飨蜉^深的層。
大模型訓(xùn)練和推理(inference)階段使用的GPU數(shù)量通常有很大的區(qū)別,這主要基于以下幾個(gè)方面:
1. 資源需求:
- 訓(xùn)練:訓(xùn)練階段需要處理大量的數(shù)據(jù)并進(jìn)行重復(fù)的前向傳播和反向傳播計(jì)算,這需要大量的計(jì)算資源。因此,通常會(huì)使用更多的GPU,甚至是成百上千的GPU,以加快訓(xùn)練速度和處理大規(guī)模數(shù)據(jù)集。
- 推理:推理階段通常只需要進(jìn)行單次的前向傳播,計(jì)算量相對(duì)較小,因此通常需要較少的GPU。在許多應(yīng)用中,一個(gè)或幾個(gè)GPU就足夠用于推理。
2. 并行策略:
- 數(shù)據(jù)并行:在訓(xùn)練時(shí),經(jīng)常使用數(shù)據(jù)并行策略,將大型數(shù)據(jù)集分割成小批量,分配到多個(gè)GPU上并行處理。
- 模型并行:對(duì)于極大的模型,可能需要使用模型并行策略,將模型的不同部分放在不同的GPU上。
- 推理時(shí)并行:在推理時(shí),通常不需要模型并行,因?yàn)橐淮沃惶幚硪粋€(gè)或幾個(gè)請(qǐng)求。
3. 效率和成本:
- 訓(xùn)練大模型通常是一項(xiàng)耗時(shí)且昂貴的任務(wù),使用更多的GPU可以提高訓(xùn)練效率,但也大大增加了成本。
- 推理需要盡可能高效和經(jīng)濟(jì),特別是在生產(chǎn)環(huán)境中,因此通常會(huì)盡量減少所需的GPU數(shù)量,以降低成本。
4. 可擴(kuò)展性和靈活性:
- 訓(xùn)練階段的模型通常被設(shè)計(jì)為能夠在大規(guī)模分布式系統(tǒng)上擴(kuò)展。
- 推理模型通常需要在各種環(huán)境中靈活部署,包括邊緣設(shè)備,因此可能更注重模型的壓縮和優(yōu)化。
總的來(lái)說(shuō),訓(xùn)練大模型時(shí)使用的GPU數(shù)量遠(yuǎn)多于推理階段,主要是因?yàn)橛?xùn)練階段的資源和計(jì)算需求遠(yuǎn)大于推理。然而,隨著量化技術(shù)和模型優(yōu)化的發(fā)展,推理階段所需的資源正在逐漸減少,允許即使是大模型也能在資源受限的環(huán)境中運(yùn)行。
- 為什么選擇
130B
:?jiǎn)畏?wù)器支持。130億參數(shù)的模型規(guī)模支持在單個(gè)含有A100 (8×40G) GPU的服務(wù)器上進(jìn)行推理計(jì)算。
The design choices of GLM-130B
- Inductive bias:歸納偏置
在機(jī)器學(xué)習(xí)中,"inductive bias"指的是一個(gè)學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某些模式假設(shè)的偏好,這些偏好影響了模型對(duì)數(shù)據(jù)的泛化能力。換句話說(shuō),就是當(dāng)面對(duì)有限的數(shù)據(jù)時(shí),算法如何推廣到未見過(guò)的數(shù)據(jù)。它是算法的一種內(nèi)在屬性,決定了算法在學(xué)習(xí)時(shí)對(duì)解決問(wèn)題的途徑和方向的偏好。
不同的機(jī)器學(xué)習(xí)模型有不同的歸納偏置。例如:
決策樹傾向于尋找數(shù)據(jù)中的分層邏輯規(guī)則。
支持向量機(jī)(SVM)通過(guò)最大化邊界來(lái)尋找分類決策邊界。
神經(jīng)網(wǎng)絡(luò)根據(jù)其層次結(jié)構(gòu)尋找可以通過(guò)逐層變換來(lái)逼近的復(fù)雜模式。
在大型語(yǔ)言模型(LLM)如GLM-130B的背景下,模型架構(gòu)(如Transformer架構(gòu))定義了它對(duì)語(yǔ)言數(shù)據(jù)中哪些特征和模式的偏好。例如,Transformer模型通過(guò)自注意力機(jī)制捕捉長(zhǎng)距離依賴,這是它的歸納偏置之一。
然而,由于大型模型的參數(shù)量極大,探索不同架構(gòu)設(shè)計(jì)的計(jì)算成本是非常高的,因此通常需要在設(shè)計(jì)階段就做出合理的選擇,以確定如何構(gòu)建模型才能最好地捕捉和泛化數(shù)據(jù)中的模式。這段文字表明,GLM-130B的設(shè)計(jì)者意識(shí)到了這一點(diǎn),并且在模型設(shè)計(jì)中做出了一些獨(dú)特的選擇,以平衡歸納偏置和計(jì)算成本。
- GLM-130B沒(méi)有采用傳統(tǒng)的GPT架構(gòu),而是使用
bidirectional GLM
作為backbone。
The training stability of GLM-130B
- gradient norm的定義
梯度范數(shù)的具體變化情況也可能受到多種因素的影響,包括模型的復(fù)雜性、數(shù)據(jù)的多樣性、優(yōu)化算法的選擇等。在某些情況下,梯度范數(shù)可能會(huì)因?yàn)槟P拖萑刖植孔钚≈祷虬包c(diǎn)而暫時(shí)增大。此外,對(duì)于一些更復(fù)雜的模型或非凸優(yōu)化問(wèn)題,梯度范數(shù)的變化可能會(huì)更加復(fù)雜,不一定遵循單調(diào)下降的趨勢(shì)。因此,梯度范數(shù)的監(jiān)控通常被用作訓(xùn)練過(guò)程中健康狀態(tài)的一個(gè)指標(biāo),幫助研究人員和工程師判斷訓(xùn)練是否在進(jìn)行得當(dāng)。
框架總結(jié)
1. 模型架構(gòu)
理解模型的基礎(chǔ)架構(gòu)以及與其他模型(如GPT-3等)的差異。
2. 預(yù)訓(xùn)練設(shè)置
了解模型預(yù)訓(xùn)練的具體過(guò)程,包括所使用的數(shù)據(jù)集、預(yù)訓(xùn)練目標(biāo)、以及如何處理模型輸入。
3. 訓(xùn)練穩(wěn)定性
模型訓(xùn)練的穩(wěn)定性對(duì)模型的性能至關(guān)重要。需關(guān)注文中提到的穩(wěn)定性問(wèn)題及解決方案。
4. 并行策略和模型配置
理解如何利用并行計(jì)算策略有效地訓(xùn)練這樣大規(guī)模的模型。
5. 量化和推理優(yōu)化
模型如何通過(guò)量化技術(shù)減少資源消耗,并優(yōu)化推理過(guò)程。
6. 結(jié)果分析
模型在各種任務(wù)上的性能如何,特別是與其他大型模型相比。
7. 相關(guān)工作
熟悉本文中提到的相關(guān)工作,以便對(duì)整個(gè)領(lǐng)域有更好的理解。
8. 結(jié)論和經(jīng)驗(yàn)教訓(xùn)
關(guān)注作者從訓(xùn)練過(guò)程中學(xué)到的經(jīng)驗(yàn)教訓(xùn)。
9. 倫理評(píng)估
了解作者如何處理與大型語(yǔ)言模型相關(guān)的倫理風(fēng)險(xiǎn)。
10. 可復(fù)現(xiàn)性
文中如何確保實(shí)驗(yàn)結(jié)果的可復(fù)現(xiàn)性,以及如何使研究成果對(duì)社區(qū)開放。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-784084.html
未完待續(xù)…文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-784084.html
到了這里,關(guān)于中英雙語(yǔ)大模型ChatGLM論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!