1 簡介
最近一直被大語言模型刷屏。本文是周末技術(shù)分享會的提綱,總結(jié)了一些自然語言模型相關(guān)的重要技術(shù),以及各個主流公司的研究方向和進(jìn)展,和大家共同學(xué)習(xí)。
2 Transformer
目前的大模型基本都是Transformer及其變種。本部分將介紹Transformer基礎(chǔ)模型及其主要變種。
2.1 Transformer模型
Transformer是一種基于自注意力機制的模型,由Encoder和Decoder兩部分組成。
下圖是精典論文《Attention is all you need》中展示的模型結(jié)構(gòu)圖,左邊是Encoder,右邊是Decoder,
在Transformer中,Encoder將輸入序列映射到一個高維空間中,Decoder則將這個高維空間中的向量映射回輸出序列。
在Encoder中,所有的詞一起輸入一起計算;在Decoder中像RNN一樣一個一個詞輸入,將已經(jīng)出現(xiàn)的詞計算得到的Q與Encoder計算得到的K,V進(jìn)行計算,經(jīng)過了全部Decoder層再經(jīng)過FC+Softmax得到結(jié)果之后再把結(jié)果當(dāng)做Decoder的輸入再走一遍整個流程直到得到END標(biāo)簽。
Transformer既有Encoder又有Decoder,主要因為一開始處理的是翻譯任務(wù),需要先理解整句的意思,再逐字生成翻譯結(jié)果。
Encoder和Decoder的主要區(qū)別包括:
- Decoder多包含了一個處理層(編碼器-解碼器注意力),其接入的是Encoder的輸出。
- Decoder下面的是 Masked Attention,它屏蔽了下文,只考慮上文對下文的影響。
簡單講:主要差別就是單向/雙向注意力的差別。
論文地址:Attention is All you Need
2.2 自編碼
- 常見模型:BERT類模型
- 結(jié)構(gòu):只有Encoder
- 方法:雙向上下文,Mask語言模型
- 場景:編碼器產(chǎn)生適合自然語言理解任務(wù)的上下文表示,常用于解決閱讀理解,完型填空等問題。
- 缺點:不能支持不確定長度文本的生成,而且依賴前后上下文,這樣就非常限制下游任務(wù)的類型;一般只能在fine-tune后才能在下游任務(wù)中使用,這也將涉及大量人工操作和模型調(diào)參,模型也不能做得太大。
- 論文地址:BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
2.3 自回歸
- 常見模型:GPT-3等模型
- 結(jié)構(gòu):只有Decoder
- 方法:單向上下文本:從左->右,“一個接一個”生成文本。將解碼器自己當(dāng)前步的輸出加入下一步的輸入,因此可以生成后續(xù)不定長的序列。
- 場景:適用于生成長數(shù)據(jù),實現(xiàn)大模型,few-shot任務(wù)效果好
- 缺點:單向注意力,使之無法完全捕獲 NLU 任務(wù)中上下文詞之間的依賴關(guān)系??梢詫⑵渌蝿?wù)轉(zhuǎn)換成自回歸任務(wù),比如:“XXXX電影很好看,這是對/錯的”,完型填空題"xxx_yyy,橫線上應(yīng)該填zzz"。這基本就是提示的原理,它讓Decoder類模型可以在不fine-tune的情況適應(yīng)各種類型的下游任務(wù),同時也擁有了BERT的一些優(yōu)勢——雖然不是雙向的,但應(yīng)學(xué)習(xí)的知識都在前文里。
- 論文地址:Language Models are Few-Shot Learners
2.4 結(jié)合Encoder和Decoder
- 常見模型:T5,GLM
- 結(jié)構(gòu):結(jié)合Encoder和Decoder
- 方法:在Encoder中使用雙向上下文,Docoder使用單向,在E和D間使用交叉注意力。
- 場景:主要用于有條件的文本生成,比如生成摘要,回答問題
- 缺點:需要更多參數(shù)。
2.4.1 T5
- 第一種方式實現(xiàn)上面提到的翻譯功能,只使用其Encoder部分,如BERT。
- 第二種方式是根據(jù)上文生成下文,如GPT
- 第三種方式在序列的前綴部分使用完全可見的掩碼,如在上面提到的英語到德語的翻譯示例中,完全可見的掩碼將應(yīng)用于前綴“translate English to German: That is good.target:”使用因果掩蔽來預(yù)測目標(biāo)“Das ist gut”。(對條件使用雙向,對結(jié)果使用單向)。
2.4.2 GLM
- 方法 自回歸的空白填充
3 模型變遷
- BERT(Devlin et al.,2018)
- GPT-2(Radford et al.,2019)
- MegatronLM(Shoeybi et al.,2019)
- T5(Raffel et al,2019)。
- GPT-3(Brown et al.,2020 年)取得了重大突破
-
- 開始大模型
- Jurassic-1(Lieber et al.,2021)
- Megatron-Turing NLG 2022)
- Gopher (Rae et al., 2021)
- Chinchilla (Hoffmann et al., 2022)
- PaLM (Chowdhery et al., 2022)
- OPT (Zhang et al., 2022)
- GLM (Zeng et al., 2022)
4 主流大模型
- 思想 & 結(jié)構(gòu) & 應(yīng)用(道 術(shù) 技)
- 一般稱參數(shù)大于100B的語言模型為大語言模型。
- 大模型主要用于解決few shot, zero shot問題。
4.1 Google
Google 的幾篇文章從模型架構(gòu),算法優(yōu)化,模型規(guī)模,應(yīng)用場景,以及大語言模型指導(dǎo)機器人同步推理;對話場景中的其它應(yīng)用(搜索、翻譯、計算器)結(jié)合等方面進(jìn)行了廣泛探索,且基本都是開源的。
4.1.1 T5模型
- 發(fā)布時間:2019-06-11
- 解決問題:T5是Transfer Text-to-Text Transformer的簡寫,它是一種NLP Text-to-Text預(yù)訓(xùn)練模型。它的輸入是文本,輸出也是文本,模型使用遷移學(xué)習(xí)的技術(shù),使用Transformer架構(gòu)。其目標(biāo)是給整個 NLP 預(yù)訓(xùn)練模型領(lǐng)域提供了一個通用框架,把所有任務(wù)都轉(zhuǎn)化成一種形式。
- 方法:提出了Encoder加Decoder的新結(jié)構(gòu),結(jié)合了BERT和GPT結(jié)構(gòu)的優(yōu)勢。將任務(wù)轉(zhuǎn)換成合適的文本輸入輸出。
- 模型結(jié)構(gòu):Encoder+Decoder
- 模型和數(shù)據(jù)規(guī)模:包含 3B(Billion)和11B版本,處理后最終生成了750GB的數(shù)據(jù)集C4,并且在TensorFlow Datasets開放了數(shù)據(jù)。
- 亮點:模型結(jié)構(gòu),整體框架
- 論文地址:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
4.1.2 LaMDA
- 發(fā)布時間:2022-02-10
- 解決問題:調(diào)優(yōu)對話機器人。提升模型的安全性和事實性,同時可利用外部知識來源,如:信息檢索系統(tǒng)、語言翻譯器和計算器——結(jié)合了自然語言模型與其它工具。
- 方法:利用眾包方式,選擇人類偏好的回答,利用標(biāo)注數(shù)據(jù)finetune模型。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:1.56T 詞進(jìn)行預(yù)訓(xùn)練,137B 參數(shù)。
- 亮點:結(jié)合了自然語言模型和其它工具,功能有點像newbing
- 論文地址:LaMDA: Language Models for Dialog Applications
4.1.3 引導(dǎo)調(diào)優(yōu)
- 發(fā)布時間:2022-02-08
- 解決問題:在通過指令描述的一組數(shù)據(jù)集上微調(diào)語言模型,它顯著提高了未見任務(wù)的 zero-shot 性能。FLAN 的性能相對于LaMDA每個任務(wù)平均值提升了10左右。
- 方法:將此類模型稱為FLAN(Finetuned Language Net),用 Tensorflow Datasets 上公開可用的 62 個文本數(shù)據(jù)集,劃分為十二種任務(wù),針對每種任務(wù)編寫模板,用于調(diào)優(yōu)模型。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集并從每個數(shù)據(jù)集中隨機抽樣。為了平衡不同大小的數(shù)據(jù)集,將每個數(shù)據(jù)集的訓(xùn)練示例數(shù)量限制為 30k,并遵循示例比例混合方案。
- 數(shù)據(jù)結(jié)構(gòu):同 LaMDA
- 數(shù)據(jù)和模型規(guī)模:預(yù)訓(xùn)練同LaMDA,精調(diào)使用62個數(shù)據(jù)集數(shù)據(jù)。
- 亮點:指令調(diào)優(yōu),見原理圖
- 論文地址:Finetuned Language Models Are Zero-Shot Learners
4.1.4 GLaM
- 發(fā)布時間:2022-08-01
- 解決問題:針對節(jié)約計算資源的研究,推進(jìn)了針對細(xì)分專家領(lǐng)域的發(fā)展。
- 方法:一種混合專家(MoE)模型,可以將其視為具有不同子模型(或?qū)<遥┑哪P?,每個子模型都專門針對不同的輸入。每層中的專家由門控網(wǎng)絡(luò)控制,該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。每次只激活8%的子網(wǎng)絡(luò)。
- 模型結(jié)構(gòu):MoE,Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:最大的 GLaM 有 1200B 參數(shù),大約是 GPT-3 的 7 倍,卻僅消耗用于訓(xùn)練 GPT-3 的 1/3 的能量,并且需要一半的計算觸發(fā)器來進(jìn)行推理;質(zhì)量篩選數(shù)據(jù)對模型訓(xùn)練的影響。過濾后的網(wǎng)頁包含 143B 個token,而未過濾的網(wǎng)頁包含大約 7T 個token,實驗說明有些任務(wù)需要高質(zhì)量數(shù)據(jù)訓(xùn)練。
- 亮點:模型結(jié)構(gòu),見模型結(jié)構(gòu)圖
- 論文地址:GLaM:Efficient Scaling of Language Models with Mixture-of-Experts
4.1.5 PaLM
- 發(fā)布時間:2022-10-05
- 解決問題:作者認(rèn)為當(dāng)模型大到一定程度后,其性能也能飛躍,而PathWay技術(shù)是其大規(guī)模訓(xùn)練的基礎(chǔ)。PaLM更關(guān)注邏輯推理相關(guān)的任務(wù),這也為后面的PaLM-E機器人行為規(guī)劃奠定了基礎(chǔ)。
- 方法:推理鏈提示和大模型都明顯提升了模型的推理能力。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:使用6144 個芯片訓(xùn)練,模型8B/62B/540B參數(shù),780 B高質(zhì)量token,密集激活。數(shù)據(jù)基于訓(xùn)練 LaMDA和GLaM的數(shù)據(jù),除了自然語言,還包含多種編程語言的源代碼。根據(jù)文件之間的 Levenshtein 距離刪除重復(fù)項。
- 亮點:大模型&推理部分&模型解釋(6.3 推理,9. 探索解釋)
- 論文地址:PaLM: Scaling Language Modeling with Pathways
4.1.6 PaLM-E
- 發(fā)布時間:2023-03-06
- 解決問題:通過多模態(tài)接入了視頻,傳感器,將大模型學(xué)到的知識應(yīng)用于機器人領(lǐng)域,進(jìn)一步解決世界中的交互問題。PaLM-E直接產(chǎn)生動作的計劃,從而讓機器人自己規(guī)劃過程。
- 方法:將圖像和狀態(tài)等輸入嵌入到與語言標(biāo)記相同的隱空間中,并由基于Transformer的LLM的自注意力層以與文本相同的方式進(jìn)行處理,輸出可以是問題的答案,或者文本形式生成的、由機器人執(zhí)行的決策序列。
- 模型結(jié)構(gòu):Decoder解碼器;提出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),支持多模態(tài)token。模型包含三部分:觀測數(shù)據(jù)編碼器,映射器和自然語言模型。
- 數(shù)據(jù)和模型規(guī)模:訓(xùn)練的最大模型有 562B 參數(shù),包含540B語言參數(shù)和22B視覺參數(shù)。
- 亮點:論文實驗部分
- 論文地址:PaLM-E: An Embodied Multimodal Language Model
4.2 Meta(Facebook)
Meta 更偏重于模型的應(yīng)用場景,在模型規(guī)模,減少標(biāo)注開銷,提升質(zhì)量等方面進(jìn)行了研究,尤其是其發(fā)布的 LLaMA 目前已經(jīng)成為各個經(jīng)濟適用模型的基礎(chǔ)模型,可能很快成為DIY的主流框架。本部分除了 Meta公司的研究,還介紹了兩個 LLaMA 的衍生產(chǎn)品。
4.2.1 OPT-175B
- 發(fā)布時間:2022-05-03
- 解決問題:超大規(guī)模語言模型,該模型是當(dāng)時第一個模型參數(shù)超過千億級別的開放模型,該模型與GPT-3相比,更加開放及便于訪問。
- 方法:訓(xùn)練 125M - 175B 各種大小的模型,經(jīng)過一系列優(yōu)化,只使用了GPT-3的1/7的訓(xùn)練資源。這是通過結(jié)合Meta的開源完全分片數(shù)據(jù)并行(FSDP) API和NVIDIA的張量并行抽象在Megetron-LM中實現(xiàn)的。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:175B參數(shù)
- 論文地址:OPT: Open Pre-trained Transformer Language Models
4.2.2 Self instruct
- 發(fā)布時間:2022-12-20
- 解決問題:對引導(dǎo)精調(diào)的優(yōu)化,之前引導(dǎo)精調(diào)主要使用人工處理的數(shù)據(jù),數(shù)據(jù)量和范圍都有限,本文通過示范少量引導(dǎo)示例,讓模型自己生成引導(dǎo)數(shù)據(jù)對模型進(jìn)行優(yōu)化。經(jīng)過自引導(dǎo)可使基礎(chǔ)模型的GPT-3提升33%,與InstructGPT001差不多的效果。
- 方法:自引導(dǎo)過程是一個迭代自舉算法。在第一階段,模型被提示為新任務(wù)生成指令。此步驟利用現(xiàn)有的指令集合來創(chuàng)建更廣泛的指令定義任務(wù);然后,在將低質(zhì)量和重復(fù)的指令添加到任務(wù)池之前,使用各種措施對其進(jìn)行修剪;針對許多交互重復(fù)此過程,直到生成大量任務(wù)。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:以GPT-3作為基礎(chǔ),產(chǎn)生大約 52k 條指令,與大約 82k 實例輸入和目標(biāo)輸出配對。
- 亮點:需要更少的人工標(biāo)注數(shù)據(jù)
- 論文地址:Self-Instruct: Aligning Language Model with Self Generated Instructions
4.2.3 LLaMA
- 發(fā)布時間:2023-02-27(論文發(fā)布時間)
- 解決問題:開源項目,以小取勝。使用更多token訓(xùn)練,更少的模型參數(shù)。其小模型可以運行在單GPU環(huán)境下,65B大模型可與PaLM模型效果競爭。
- 方法:大模型在Few Shot上表現(xiàn)好,主要歸功于大模型的參數(shù)量。本文至力于找到合適的數(shù)據(jù)量和參數(shù)量,以實現(xiàn)快速推理。調(diào)整模型結(jié)構(gòu),提升訓(xùn)練和預(yù)測速度。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:模型從7B-65B參數(shù),使用T級別token訓(xùn)練。在訓(xùn)練 65B 參數(shù)模型時,代碼在具有 80GB RAM 的 2048 A100 GPU。對包含 1.4T 令牌的數(shù)據(jù)集進(jìn)行訓(xùn)練大約需要 21 天。
- 論文地址:LLaMA: Open and Efficient Foundation Language Models
4.2.4 ColossalChat
- 發(fā)布時間:2023-02-15
- 解決問題:開源完整 RLHF 訓(xùn)練代碼,已開源含7B、13B兩種模型。體驗最小 demo 訓(xùn)練流程最低僅需 1.62GB 顯存,任意單張消費級 GPU 即可滿足。
- 方法:以Meta最新開源的LLaMA為基礎(chǔ)預(yù)訓(xùn)練模型。用于通過完整的RLHF管道克隆ChatGPT。該管道包括監(jiān)督數(shù)據(jù)收集、監(jiān)督微調(diào)、獎勵模型訓(xùn)練和強化學(xué)習(xí)微調(diào),基于LLaMA預(yù)訓(xùn)練模型。它只需要不到10B個參數(shù),就可以通過RLHF微調(diào)在中英文雙語能力方面達(dá)到與ChatGPT和GPT-3.5相似的效果。
- 模型結(jié)構(gòu):同 LLaMA
- 數(shù)據(jù)和模型規(guī)模:英雙語數(shù)據(jù)集,訓(xùn)練的英文一共 24M tokens,中文大約 30M tokens,總共約 54M tokens。4bit量化推理70億參數(shù)模型僅需4GB顯存。
- 詳見:源碼地址 24.3K star
4.2.5 Dolly
- 發(fā)布時間:2023-03-24(韓國公司)
- 解決問題:Dolly是一個低成本的LLM,它采用LLaMA為基礎(chǔ),是具有60億參數(shù)的開源模型。通過指令精調(diào),使其具有了類似于ChatGPT的交互性??梢宰约合螺d訓(xùn)練,開發(fā)成本僅需30美元,且開源。
- 方法:對模型進(jìn)行細(xì)微的修改,以激發(fā)服從指令的能力。斯坦福大學(xué)基于LLaMA構(gòu)建了Alpaca,但不同之處在于,它利用一個包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。即便對一個開源大型語言模型 GPT-J,也能通過30分鐘的訓(xùn)練,賦予它神奇的類似ChatGPT的指令跟隨能力。
- 模型結(jié)構(gòu):同 LLaMA
- 數(shù)據(jù)和模型規(guī)模:使用包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。
- 詳見:Dolly 低成本生成式 AI
4.3 OpenAI
OpenAI 的 GPT-4 無疑是目前最好的大語言模型,從GPT到GPT-4一路走來,ChatGPT爆發(fā),可能是我們這個時代最重要的事件之一??赡苁菫榱吮3诸I(lǐng)先,OpenAI 逐漸轉(zhuǎn)換策略,不再公開具體技術(shù),常被諷 CloseAI。
最初堅持使用單向Transformer構(gòu)造大模型,現(xiàn)在看的確很有眼光,ChatGPT比GPT-3便宜10倍的價值,搶先占領(lǐng)市場,這個策略可能也是合理的。
而AI、語言模型發(fā)展到今天,也是互聯(lián)網(wǎng)數(shù)據(jù),軟硬件,深度學(xué)習(xí),強化學(xué)習(xí)各個領(lǐng)域近年高速發(fā)展和開源的結(jié)果。個人認(rèn)為:無論誰都不太可能一家獨大。
4.3.1 GPT-GPT3.5
- 詳見:GPT / GPT-2 / GPT-3 / InstructGPT 進(jìn)化之路
4.3.2 GPT-4
- 發(fā)布時間:2023-03-14
- 解決問題:評測了GPT-4:一個大規(guī)模的多模態(tài)模型,可以接受圖像和文本輸入并產(chǎn)生文本輸出。提升了利用知識去解決具體問題的能力。對于非常復(fù)雜的指令,GPT-4的理解能力和創(chuàng)造力遠(yuǎn)超3.5。
- 方法:模型訓(xùn)練具體使用了互聯(lián)網(wǎng)數(shù)據(jù)和一些三方版權(quán)數(shù)據(jù)。然后使用人類反饋強化學(xué)習(xí) (RLHF) 對模型進(jìn)行微調(diào)。
- 模型結(jié)構(gòu):延續(xù)了GPT-3的結(jié)構(gòu)
- 數(shù)據(jù)和模型規(guī)模:報告不包含關(guān)于架構(gòu)(包括模型尺寸)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似的更多細(xì)節(jié)。
- 亮點:實驗結(jié)果
- 論文地址:GPT-4 Technical Report
4.4 清華
2022年11月,斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。 它準(zhǔn)確性和惡意性指標(biāo)上與 GPT-3 175B (davinci) 接近或持平。
ChatGLM是GLM公開的單機版本,基本是開包即用,又是中英文雙語訓(xùn)練的模型,對中文用戶比較友好。
4.4.1 GLM
- 發(fā)布時間:2022-01-01
- 解決問題:通過在結(jié)構(gòu)上的調(diào)整,結(jié)合了GPT和BERT類模型的優(yōu)點,且模型規(guī)模和復(fù)雜度沒有提升。將NLU任務(wù)轉(zhuǎn)換成生成任務(wù)訓(xùn)練模型,使上下游任務(wù)訓(xùn)練方式保持一致。
- 方法:沒有一個預(yù)訓(xùn)練框架對自然語言理解 (NLU)、無條件生成和條件生成這三個主要類別的所有任務(wù)表現(xiàn)都好。GLM 基于自回歸空白填充來解決這一挑戰(zhàn)。使用了二維的位置編碼,相對于T5模型有更少的參數(shù),差不多的效果。一個模型同時支持NLU和文本生成,所以是多任務(wù)的訓(xùn)練。
- 模型結(jié)構(gòu):GLM基于自回歸的空白填充。從輸入文本中隨機刪除連續(xù)的token(自編碼),并訓(xùn)練模型以順序重建刪除的token(自回歸)。
- 數(shù)據(jù)和模型規(guī)模:使用BERT/RoBERT 幾種模型大小相同的數(shù)據(jù)訓(xùn)練模型,以保證對比的公平性。
- 論文地址:GLM: General Language Model Pretraining with Autoregressive Blank Infilling
4.4.2 ChatGLM
- 發(fā)布時間:2023-01-01
- 解決問題:開源,并針對中文進(jìn)行了優(yōu)化,尤其是可以在自己的機器上搭建其簡版的int4服務(wù),實測回答一般性問題效果還不錯。
- 方法:ChatGLM是使用中英雙語預(yù)訓(xùn)練的大語言模型,在穩(wěn)定性和性能方面進(jìn)行了調(diào)優(yōu)。在模型結(jié)構(gòu)上結(jié)合了GPT和BERT。在英文方面,效果優(yōu)于GPT-3;在中文方面,優(yōu)于260B參數(shù)的ERNIE TITAN 3.0??稍?×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPUs 環(huán)境下運行。
不僅包括自監(jiān)督的GLM自回歸空白填充,還包括對小部分token的多任務(wù)學(xué)習(xí),以提升其下游zero-shot任務(wù)的性能。 - 模型結(jié)構(gòu):同GLM。
- 數(shù)據(jù)和模型規(guī)模:具有130B參數(shù)(1300億),包括1.2 T英語、1.0 T的中文悟道語料庫,以及從網(wǎng)絡(luò)爬取的250G中文語料庫(包括在線論壇、百科全書和QA),形成了平衡的英漢內(nèi)容構(gòu)成。
- 亮點:搭建方法
- 論文地址:GLM-130B: AN OPEN BILINGUAL PRE-TRAINED
4.5 DeepMind
DeepMind 圍繞提升模型性能展開研究,其研究為后繼的模型精減和優(yōu)化,和更廣闊的使用場景奠定了基礎(chǔ)。
4.5.1 Gopher
- 發(fā)布時間:2021-12-08
- 解決問題:經(jīng)過實驗得出結(jié)論:任何學(xué)術(shù)科目,連同一般知識,通過模型改進(jìn)模型規(guī)模都能提升其效果,但規(guī)模對邏輯推理、常識和數(shù)學(xué)任務(wù)的好處較少。
- 方法:DeepMind 訓(xùn)練了 6 個不同大小的模型,從 44M 參數(shù)到 280B 參數(shù)的 Gopher 模型,進(jìn)行比較,他們在一組 152 個任務(wù)上評估了模型,Gopher 打破了 100 項記錄。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:10.5TB語料庫上進(jìn)行訓(xùn)練,280 B參數(shù)。
- 論文地址:Scaling Language Models: Methods, Analysis & Insights from Training Gopher
4.5.2 Chinchillla
- 發(fā)布時間:2022-03-29
- 解決問題:針對訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,以及數(shù)據(jù)訓(xùn)練量,得出結(jié)論:更長的訓(xùn)練時間,更多token,能提升模型效果;大模型的參數(shù)量和性能之間存在冪律分布。
- 方法:在 5 到 5000 億個標(biāo)記上訓(xùn)練 400 多個語言模型,范圍從 7000 萬到超過 160 億個參數(shù),把參數(shù)量和數(shù)據(jù)規(guī)模加入Loss的懲罰。在運算量固定的情況下,如何選擇參數(shù)和token量的配比,使損失函數(shù)最小;它對Gopher的進(jìn)行調(diào)整,將模型大小變?yōu)槠?/4,token變?yōu)槠?倍,與Gopher計算量基本一致。
- 模型結(jié)構(gòu):同Gopher
- 數(shù)據(jù)和模型規(guī)模:10.5TB語料庫上進(jìn)行訓(xùn)練,70B模型參數(shù)。
- 論文地址:Training Compute-Optimal Large Language Models
4.6 MicroSoft
本月微軟發(fā)布的兩篇文章(2023年03月),相對偏具體的應(yīng)用場景,以及語言模型和其它(如圖片)數(shù)據(jù)相結(jié)合實現(xiàn)的應(yīng)用效果,盡管把文本和圖本映射到同一嵌入空間;通過調(diào)整提示調(diào)用ChatGPT和圖像修改工具,并不是首次提出,但是實現(xiàn)的效果還是很炫酷有趣的。文章來源:http://www.zghlxwxcb.cn/news/detail-407783.html
4.6.1 Visual ChatGPT
- 發(fā)布時間:2023-03-08
- 解決問題:在ChatGPT和圖像構(gòu)建方法間做了橋接,和其它模型相比,除了利用大語言模型中的知識,還利用了ChatGPT強化學(xué)習(xí)帶來的能力,
- 方法:主要對聊天的場景進(jìn)行優(yōu)化,在提示上作文章。即:在ChatGPT外邊包了一層,這也是當(dāng)前最常見的用法,文章偏工程化的具體實現(xiàn)。將CoT的潛力擴展到大規(guī)模任務(wù),包括但不限于文本生成高清圖像、圖像到圖像的翻譯、圖像到文本的生成等。
- 模型結(jié)構(gòu):主要組合調(diào)用現(xiàn)有模型,設(shè)計了一個Prompt Manager,其中涉及22個不同的虛擬功能矩陣,并定義了它們之間的內(nèi)部關(guān)聯(lián),以便更好地交互和組合。
- 數(shù)據(jù)和模型規(guī)模:(OpenAI “text-davinci-003” version)
- 論文地址:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
4.6.2 Kosmos-1
- 發(fā)布時間:2023-03-01
- 解決問題:主要研究視覺和文本領(lǐng)域的對齊,具體應(yīng)用是看圖回答問題。KOSMOS - 1是一種多模態(tài)語言模型,能夠感知通用模態(tài)、遵循指令、在語境中學(xué)習(xí)并產(chǎn)生輸出。
- 方法:也沒太說具體是怎么做的,主要是提出概念,展示能力。
- 模型結(jié)構(gòu):包含單模態(tài)數(shù)據(jù)和多模態(tài)數(shù)據(jù)。使用單模態(tài)數(shù)據(jù)進(jìn)行表示學(xué)習(xí)。例如,利用文本數(shù)據(jù)進(jìn)行語言建模預(yù)訓(xùn)練指令跟隨、語境學(xué)習(xí)、各種語言任務(wù)等。此外,用跨模態(tài)對和交錯數(shù)據(jù)學(xué)習(xí)將一般模態(tài)的感知與語言模型對齊。
- 數(shù)據(jù)和模型規(guī)模:1.3 B的參數(shù)。
- 亮點:應(yīng)用場景:回答圖片智力題,直接OCR 備2_論文閱讀_Kosmos-1
- 論文地址:Language Is Not All You Need: Aligning Perception with Language Models
4.7 其它大模型
還有一些大語言模型也有著里程碑的意義,比如:MT-NLG 530B,當(dāng)時首次把模型擴展到 500+B的量級,示范了訓(xùn)練單體超大模型的方法;又如 BLOOM 是一個開放的模型,任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。它們也常常在其它文章中用作模型對比的基線。文章來源地址http://www.zghlxwxcb.cn/news/detail-407783.html
4.7.1 Megatron–Turing NLG(威震天-圖靈,MT-NLG 530B)
- 發(fā)布時間:2021年10月
- 解決問題:英偉達(dá)和微軟合作訓(xùn)練模型,示范了訓(xùn)練單體超大模型的方法,
- 方法:4480塊A100訓(xùn)練,DeepSpeed & Megatron 三維并行訓(xùn)練技術(shù)。DeepSpeed 是一個深度學(xué)習(xí)優(yōu)化庫,讓分布式訓(xùn)練變得簡單、高效且有效,Megatron-LM 是由 NVIDIA 的應(yīng)用深度學(xué)習(xí)研究團隊開發(fā)的大型、強大的 transformer 模型框架。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模:530 B 參數(shù)
- 論文地址:Using DeepSpeed and Megatron to Train Megatron-Turing NLG
530B, A Large-Scale Generative Language Model
4.7.2 BLOOM
- 發(fā)布時間:模型的訓(xùn)練于 2022 年 3 月至 7 月期間,耗時約 3.5 個月完成,在2022年11月上傳arxiv。
- 解決問題:Hugging Face 聯(lián)合創(chuàng)始人發(fā)起,多方聯(lián)合,BigScience 的研究人員發(fā)布的開源模型。BLOOM最大的特點在于可訪問性,任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。
- 方法:Megatron & DeepSpeed 訓(xùn)練。
- 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
- 數(shù)據(jù)和模型規(guī)模: 176 B參數(shù),1.5TB 經(jīng)過大量去重和清洗的文本,包含 46 種語言,最終轉(zhuǎn)換為 350B token。
- 論文地址:BLOOM: A 176B-Parameter Open-Access Multilingual
Language Model
到了這里,關(guān)于自然語言大模型介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!