国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

自然語言大模型介紹

這篇具有很好參考價值的文章主要介紹了自然語言大模型介紹。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1 簡介

最近一直被大語言模型刷屏。本文是周末技術(shù)分享會的提綱,總結(jié)了一些自然語言模型相關(guān)的重要技術(shù),以及各個主流公司的研究方向和進(jìn)展,和大家共同學(xué)習(xí)。

2 Transformer

目前的大模型基本都是Transformer及其變種。本部分將介紹Transformer基礎(chǔ)模型及其主要變種。

2.1 Transformer模型

Transformer是一種基于自注意力機制的模型,由Encoder和Decoder兩部分組成。
下圖是精典論文《Attention is all you need》中展示的模型結(jié)構(gòu)圖,左邊是Encoder,右邊是Decoder,

自然語言大模型介紹

在Transformer中,Encoder將輸入序列映射到一個高維空間中,Decoder則將這個高維空間中的向量映射回輸出序列。
在Encoder中,所有的詞一起輸入一起計算;在Decoder中像RNN一樣一個一個詞輸入,將已經(jīng)出現(xiàn)的詞計算得到的Q與Encoder計算得到的K,V進(jìn)行計算,經(jīng)過了全部Decoder層再經(jīng)過FC+Softmax得到結(jié)果之后再把結(jié)果當(dāng)做Decoder的輸入再走一遍整個流程直到得到END標(biāo)簽。
Transformer既有Encoder又有Decoder,主要因為一開始處理的是翻譯任務(wù),需要先理解整句的意思,再逐字生成翻譯結(jié)果。

Encoder和Decoder的主要區(qū)別包括:

  • Decoder多包含了一個處理層(編碼器-解碼器注意力),其接入的是Encoder的輸出。
  • Decoder下面的是 Masked Attention,它屏蔽了下文,只考慮上文對下文的影響。
    簡單講:主要差別就是單向/雙向注意力的差別。
    論文地址:Attention is All you Need

2.2 自編碼

  • 常見模型:BERT類模型
  • 結(jié)構(gòu):只有Encoder
  • 方法:雙向上下文,Mask語言模型
  • 場景:編碼器產(chǎn)生適合自然語言理解任務(wù)的上下文表示,常用于解決閱讀理解,完型填空等問題。
  • 缺點:不能支持不確定長度文本的生成,而且依賴前后上下文,這樣就非常限制下游任務(wù)的類型;一般只能在fine-tune后才能在下游任務(wù)中使用,這也將涉及大量人工操作和模型調(diào)參,模型也不能做得太大。
  • 論文地址:BERT: Pre-training of Deep Bidirectional Transformers for
    Language Understanding

2.3 自回歸

  • 常見模型:GPT-3等模型
  • 結(jié)構(gòu):只有Decoder
  • 方法:單向上下文本:從左->右,“一個接一個”生成文本。將解碼器自己當(dāng)前步的輸出加入下一步的輸入,因此可以生成后續(xù)不定長的序列。
  • 場景:適用于生成長數(shù)據(jù),實現(xiàn)大模型,few-shot任務(wù)效果好
  • 缺點:單向注意力,使之無法完全捕獲 NLU 任務(wù)中上下文詞之間的依賴關(guān)系??梢詫⑵渌蝿?wù)轉(zhuǎn)換成自回歸任務(wù),比如:“XXXX電影很好看,這是對/錯的”,完型填空題"xxx_yyy,橫線上應(yīng)該填zzz"。這基本就是提示的原理,它讓Decoder類模型可以在不fine-tune的情況適應(yīng)各種類型的下游任務(wù),同時也擁有了BERT的一些優(yōu)勢——雖然不是雙向的,但應(yīng)學(xué)習(xí)的知識都在前文里。
  • 論文地址:Language Models are Few-Shot Learners

2.4 結(jié)合Encoder和Decoder

  • 常見模型:T5,GLM
  • 結(jié)構(gòu):結(jié)合Encoder和Decoder
  • 方法:在Encoder中使用雙向上下文,Docoder使用單向,在E和D間使用交叉注意力。
  • 場景:主要用于有條件的文本生成,比如生成摘要,回答問題
  • 缺點:需要更多參數(shù)。
2.4.1 T5

自然語言大模型介紹

  • 第一種方式實現(xiàn)上面提到的翻譯功能,只使用其Encoder部分,如BERT。
  • 第二種方式是根據(jù)上文生成下文,如GPT
  • 第三種方式在序列的前綴部分使用完全可見的掩碼,如在上面提到的英語到德語的翻譯示例中,完全可見的掩碼將應(yīng)用于前綴“translate English to German: That is good.target:”使用因果掩蔽來預(yù)測目標(biāo)“Das ist gut”。(對條件使用雙向,對結(jié)果使用單向)。
2.4.2 GLM
  • 方法 自回歸的空白填充

自然語言大模型介紹

3 模型變遷

  • BERT(Devlin et al.,2018)
  • GPT-2(Radford et al.,2019)
  • MegatronLM(Shoeybi et al.,2019)
  • T5(Raffel et al,2019)。
  • GPT-3(Brown et al.,2020 年)取得了重大突破

  • 開始大模型
  • Jurassic-1(Lieber et al.,2021)
  • Megatron-Turing NLG 2022)
  • Gopher (Rae et al., 2021)
  • Chinchilla (Hoffmann et al., 2022)
  • PaLM (Chowdhery et al., 2022)
  • OPT (Zhang et al., 2022)
  • GLM (Zeng et al., 2022)

自然語言大模型介紹

4 主流大模型

  • 思想 & 結(jié)構(gòu) & 應(yīng)用(道 術(shù) 技)
  • 一般稱參數(shù)大于100B的語言模型為大語言模型。
  • 大模型主要用于解決few shot, zero shot問題。

4.1 Google

Google 的幾篇文章從模型架構(gòu),算法優(yōu)化,模型規(guī)模,應(yīng)用場景,以及大語言模型指導(dǎo)機器人同步推理;對話場景中的其它應(yīng)用(搜索、翻譯、計算器)結(jié)合等方面進(jìn)行了廣泛探索,且基本都是開源的。

4.1.1 T5模型
  • 發(fā)布時間:2019-06-11
  • 解決問題:T5是Transfer Text-to-Text Transformer的簡寫,它是一種NLP Text-to-Text預(yù)訓(xùn)練模型。它的輸入是文本,輸出也是文本,模型使用遷移學(xué)習(xí)的技術(shù),使用Transformer架構(gòu)。其目標(biāo)是給整個 NLP 預(yù)訓(xùn)練模型領(lǐng)域提供了一個通用框架,把所有任務(wù)都轉(zhuǎn)化成一種形式。
  • 方法:提出了Encoder加Decoder的新結(jié)構(gòu),結(jié)合了BERT和GPT結(jié)構(gòu)的優(yōu)勢。將任務(wù)轉(zhuǎn)換成合適的文本輸入輸出。
  • 模型結(jié)構(gòu):Encoder+Decoder
  • 模型和數(shù)據(jù)規(guī)模:包含 3B(Billion)和11B版本,處理后最終生成了750GB的數(shù)據(jù)集C4,并且在TensorFlow Datasets開放了數(shù)據(jù)。
  • 亮點:模型結(jié)構(gòu),整體框架
  • 論文地址:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
4.1.2 LaMDA
  • 發(fā)布時間:2022-02-10
  • 解決問題:調(diào)優(yōu)對話機器人。提升模型的安全性和事實性,同時可利用外部知識來源,如:信息檢索系統(tǒng)、語言翻譯器和計算器——結(jié)合了自然語言模型與其它工具。
  • 方法:利用眾包方式,選擇人類偏好的回答,利用標(biāo)注數(shù)據(jù)finetune模型。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:1.56T 詞進(jìn)行預(yù)訓(xùn)練,137B 參數(shù)。
  • 亮點:結(jié)合了自然語言模型和其它工具,功能有點像newbing
  • 論文地址:LaMDA: Language Models for Dialog Applications
4.1.3 引導(dǎo)調(diào)優(yōu)
  • 發(fā)布時間:2022-02-08
  • 解決問題:在通過指令描述的一組數(shù)據(jù)集上微調(diào)語言模型,它顯著提高了未見任務(wù)的 zero-shot 性能。FLAN 的性能相對于LaMDA每個任務(wù)平均值提升了10左右。
  • 方法:將此類模型稱為FLAN(Finetuned Language Net),用 Tensorflow Datasets 上公開可用的 62 個文本數(shù)據(jù)集,劃分為十二種任務(wù),針對每種任務(wù)編寫模板,用于調(diào)優(yōu)模型。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集并從每個數(shù)據(jù)集中隨機抽樣。為了平衡不同大小的數(shù)據(jù)集,將每個數(shù)據(jù)集的訓(xùn)練示例數(shù)量限制為 30k,并遵循示例比例混合方案。
  • 數(shù)據(jù)結(jié)構(gòu):同 LaMDA
  • 數(shù)據(jù)和模型規(guī)模:預(yù)訓(xùn)練同LaMDA,精調(diào)使用62個數(shù)據(jù)集數(shù)據(jù)。
  • 亮點:指令調(diào)優(yōu),見原理圖
  • 論文地址:Finetuned Language Models Are Zero-Shot Learners
4.1.4 GLaM
  • 發(fā)布時間:2022-08-01
  • 解決問題:針對節(jié)約計算資源的研究,推進(jìn)了針對細(xì)分專家領(lǐng)域的發(fā)展。
  • 方法:一種混合專家(MoE)模型,可以將其視為具有不同子模型(或?qū)<遥┑哪P?,每個子模型都專門針對不同的輸入。每層中的專家由門控網(wǎng)絡(luò)控制,該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。每次只激活8%的子網(wǎng)絡(luò)。
  • 模型結(jié)構(gòu):MoE,Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:最大的 GLaM 有 1200B 參數(shù),大約是 GPT-3 的 7 倍,卻僅消耗用于訓(xùn)練 GPT-3 的 1/3 的能量,并且需要一半的計算觸發(fā)器來進(jìn)行推理;質(zhì)量篩選數(shù)據(jù)對模型訓(xùn)練的影響。過濾后的網(wǎng)頁包含 143B 個token,而未過濾的網(wǎng)頁包含大約 7T 個token,實驗說明有些任務(wù)需要高質(zhì)量數(shù)據(jù)訓(xùn)練。
  • 亮點:模型結(jié)構(gòu),見模型結(jié)構(gòu)圖
  • 論文地址:GLaM:Efficient Scaling of Language Models with Mixture-of-Experts
4.1.5 PaLM
  • 發(fā)布時間:2022-10-05
  • 解決問題:作者認(rèn)為當(dāng)模型大到一定程度后,其性能也能飛躍,而PathWay技術(shù)是其大規(guī)模訓(xùn)練的基礎(chǔ)。PaLM更關(guān)注邏輯推理相關(guān)的任務(wù),這也為后面的PaLM-E機器人行為規(guī)劃奠定了基礎(chǔ)。
  • 方法:推理鏈提示和大模型都明顯提升了模型的推理能力。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:使用6144 個芯片訓(xùn)練,模型8B/62B/540B參數(shù),780 B高質(zhì)量token,密集激活。數(shù)據(jù)基于訓(xùn)練 LaMDA和GLaM的數(shù)據(jù),除了自然語言,還包含多種編程語言的源代碼。根據(jù)文件之間的 Levenshtein 距離刪除重復(fù)項。
  • 亮點:大模型&推理部分&模型解釋(6.3 推理,9. 探索解釋)
  • 論文地址:PaLM: Scaling Language Modeling with Pathways
4.1.6 PaLM-E
  • 發(fā)布時間:2023-03-06
  • 解決問題:通過多模態(tài)接入了視頻,傳感器,將大模型學(xué)到的知識應(yīng)用于機器人領(lǐng)域,進(jìn)一步解決世界中的交互問題。PaLM-E直接產(chǎn)生動作的計劃,從而讓機器人自己規(guī)劃過程。
  • 方法:將圖像和狀態(tài)等輸入嵌入到與語言標(biāo)記相同的隱空間中,并由基于Transformer的LLM的自注意力層以與文本相同的方式進(jìn)行處理,輸出可以是問題的答案,或者文本形式生成的、由機器人執(zhí)行的決策序列。
  • 模型結(jié)構(gòu):Decoder解碼器;提出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),支持多模態(tài)token。模型包含三部分:觀測數(shù)據(jù)編碼器,映射器和自然語言模型。
  • 數(shù)據(jù)和模型規(guī)模:訓(xùn)練的最大模型有 562B 參數(shù),包含540B語言參數(shù)和22B視覺參數(shù)。
  • 亮點:論文實驗部分
  • 論文地址:PaLM-E: An Embodied Multimodal Language Model

4.2 Meta(Facebook)

Meta 更偏重于模型的應(yīng)用場景,在模型規(guī)模,減少標(biāo)注開銷,提升質(zhì)量等方面進(jìn)行了研究,尤其是其發(fā)布的 LLaMA 目前已經(jīng)成為各個經(jīng)濟適用模型的基礎(chǔ)模型,可能很快成為DIY的主流框架。本部分除了 Meta公司的研究,還介紹了兩個 LLaMA 的衍生產(chǎn)品。

4.2.1 OPT-175B
  • 發(fā)布時間:2022-05-03
  • 解決問題:超大規(guī)模語言模型,該模型是當(dāng)時第一個模型參數(shù)超過千億級別的開放模型,該模型與GPT-3相比,更加開放及便于訪問。
  • 方法:訓(xùn)練 125M - 175B 各種大小的模型,經(jīng)過一系列優(yōu)化,只使用了GPT-3的1/7的訓(xùn)練資源。這是通過結(jié)合Meta的開源完全分片數(shù)據(jù)并行(FSDP) API和NVIDIA的張量并行抽象在Megetron-LM中實現(xiàn)的。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:175B參數(shù)
  • 論文地址:OPT: Open Pre-trained Transformer Language Models
4.2.2 Self instruct
  • 發(fā)布時間:2022-12-20
  • 解決問題:對引導(dǎo)精調(diào)的優(yōu)化,之前引導(dǎo)精調(diào)主要使用人工處理的數(shù)據(jù),數(shù)據(jù)量和范圍都有限,本文通過示范少量引導(dǎo)示例,讓模型自己生成引導(dǎo)數(shù)據(jù)對模型進(jìn)行優(yōu)化。經(jīng)過自引導(dǎo)可使基礎(chǔ)模型的GPT-3提升33%,與InstructGPT001差不多的效果。
  • 方法:自引導(dǎo)過程是一個迭代自舉算法。在第一階段,模型被提示為新任務(wù)生成指令。此步驟利用現(xiàn)有的指令集合來創(chuàng)建更廣泛的指令定義任務(wù);然后,在將低質(zhì)量和重復(fù)的指令添加到任務(wù)池之前,使用各種措施對其進(jìn)行修剪;針對許多交互重復(fù)此過程,直到生成大量任務(wù)。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:以GPT-3作為基礎(chǔ),產(chǎn)生大約 52k 條指令,與大約 82k 實例輸入和目標(biāo)輸出配對。
  • 亮點:需要更少的人工標(biāo)注數(shù)據(jù)
  • 論文地址:Self-Instruct: Aligning Language Model with Self Generated Instructions
4.2.3 LLaMA
  • 發(fā)布時間:2023-02-27(論文發(fā)布時間)
  • 解決問題:開源項目,以小取勝。使用更多token訓(xùn)練,更少的模型參數(shù)。其小模型可以運行在單GPU環(huán)境下,65B大模型可與PaLM模型效果競爭。
  • 方法:大模型在Few Shot上表現(xiàn)好,主要歸功于大模型的參數(shù)量。本文至力于找到合適的數(shù)據(jù)量和參數(shù)量,以實現(xiàn)快速推理。調(diào)整模型結(jié)構(gòu),提升訓(xùn)練和預(yù)測速度。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:模型從7B-65B參數(shù),使用T級別token訓(xùn)練。在訓(xùn)練 65B 參數(shù)模型時,代碼在具有 80GB RAM 的 2048 A100 GPU。對包含 1.4T 令牌的數(shù)據(jù)集進(jìn)行訓(xùn)練大約需要 21 天。
  • 論文地址:LLaMA: Open and Efficient Foundation Language Models
4.2.4 ColossalChat
  • 發(fā)布時間:2023-02-15
  • 解決問題:開源完整 RLHF 訓(xùn)練代碼,已開源含7B、13B兩種模型。體驗最小 demo 訓(xùn)練流程最低僅需 1.62GB 顯存,任意單張消費級 GPU 即可滿足。
  • 方法:以Meta最新開源的LLaMA為基礎(chǔ)預(yù)訓(xùn)練模型。用于通過完整的RLHF管道克隆ChatGPT。該管道包括監(jiān)督數(shù)據(jù)收集、監(jiān)督微調(diào)、獎勵模型訓(xùn)練和強化學(xué)習(xí)微調(diào),基于LLaMA預(yù)訓(xùn)練模型。它只需要不到10B個參數(shù),就可以通過RLHF微調(diào)在中英文雙語能力方面達(dá)到與ChatGPT和GPT-3.5相似的效果。
  • 模型結(jié)構(gòu):同 LLaMA
  • 數(shù)據(jù)和模型規(guī)模:英雙語數(shù)據(jù)集,訓(xùn)練的英文一共 24M tokens,中文大約 30M tokens,總共約 54M tokens。4bit量化推理70億參數(shù)模型僅需4GB顯存。
  • 詳見:源碼地址 24.3K star
4.2.5 Dolly
  • 發(fā)布時間:2023-03-24(韓國公司)
  • 解決問題:Dolly是一個低成本的LLM,它采用LLaMA為基礎(chǔ),是具有60億參數(shù)的開源模型。通過指令精調(diào),使其具有了類似于ChatGPT的交互性??梢宰约合螺d訓(xùn)練,開發(fā)成本僅需30美元,且開源。
  • 方法:對模型進(jìn)行細(xì)微的修改,以激發(fā)服從指令的能力。斯坦福大學(xué)基于LLaMA構(gòu)建了Alpaca,但不同之處在于,它利用一個包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。即便對一個開源大型語言模型 GPT-J,也能通過30分鐘的訓(xùn)練,賦予它神奇的類似ChatGPT的指令跟隨能力。
  • 模型結(jié)構(gòu):同 LLaMA
  • 數(shù)據(jù)和模型規(guī)模:使用包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。
  • 詳見:Dolly 低成本生成式 AI

4.3 OpenAI

OpenAI 的 GPT-4 無疑是目前最好的大語言模型,從GPT到GPT-4一路走來,ChatGPT爆發(fā),可能是我們這個時代最重要的事件之一??赡苁菫榱吮3诸I(lǐng)先,OpenAI 逐漸轉(zhuǎn)換策略,不再公開具體技術(shù),常被諷 CloseAI。
最初堅持使用單向Transformer構(gòu)造大模型,現(xiàn)在看的確很有眼光,ChatGPT比GPT-3便宜10倍的價值,搶先占領(lǐng)市場,這個策略可能也是合理的。
而AI、語言模型發(fā)展到今天,也是互聯(lián)網(wǎng)數(shù)據(jù),軟硬件,深度學(xué)習(xí),強化學(xué)習(xí)各個領(lǐng)域近年高速發(fā)展和開源的結(jié)果。個人認(rèn)為:無論誰都不太可能一家獨大。

4.3.1 GPT-GPT3.5
  • 詳見:GPT / GPT-2 / GPT-3 / InstructGPT 進(jìn)化之路
4.3.2 GPT-4
  • 發(fā)布時間:2023-03-14
  • 解決問題:評測了GPT-4:一個大規(guī)模的多模態(tài)模型,可以接受圖像和文本輸入并產(chǎn)生文本輸出。提升了利用知識去解決具體問題的能力。對于非常復(fù)雜的指令,GPT-4的理解能力和創(chuàng)造力遠(yuǎn)超3.5。
  • 方法:模型訓(xùn)練具體使用了互聯(lián)網(wǎng)數(shù)據(jù)和一些三方版權(quán)數(shù)據(jù)。然后使用人類反饋強化學(xué)習(xí) (RLHF) 對模型進(jìn)行微調(diào)。
  • 模型結(jié)構(gòu):延續(xù)了GPT-3的結(jié)構(gòu)
  • 數(shù)據(jù)和模型規(guī)模:報告不包含關(guān)于架構(gòu)(包括模型尺寸)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似的更多細(xì)節(jié)。
  • 亮點:實驗結(jié)果
  • 論文地址:GPT-4 Technical Report

4.4 清華

2022年11月,斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。 它準(zhǔn)確性和惡意性指標(biāo)上與 GPT-3 175B (davinci) 接近或持平。
ChatGLM是GLM公開的單機版本,基本是開包即用,又是中英文雙語訓(xùn)練的模型,對中文用戶比較友好。

4.4.1 GLM
  • 發(fā)布時間:2022-01-01
  • 解決問題:通過在結(jié)構(gòu)上的調(diào)整,結(jié)合了GPT和BERT類模型的優(yōu)點,且模型規(guī)模和復(fù)雜度沒有提升。將NLU任務(wù)轉(zhuǎn)換成生成任務(wù)訓(xùn)練模型,使上下游任務(wù)訓(xùn)練方式保持一致。
  • 方法:沒有一個預(yù)訓(xùn)練框架對自然語言理解 (NLU)、無條件生成和條件生成這三個主要類別的所有任務(wù)表現(xiàn)都好。GLM 基于自回歸空白填充來解決這一挑戰(zhàn)。使用了二維的位置編碼,相對于T5模型有更少的參數(shù),差不多的效果。一個模型同時支持NLU和文本生成,所以是多任務(wù)的訓(xùn)練。
  • 模型結(jié)構(gòu):GLM基于自回歸的空白填充。從輸入文本中隨機刪除連續(xù)的token(自編碼),并訓(xùn)練模型以順序重建刪除的token(自回歸)。
  • 數(shù)據(jù)和模型規(guī)模:使用BERT/RoBERT 幾種模型大小相同的數(shù)據(jù)訓(xùn)練模型,以保證對比的公平性。
  • 論文地址:GLM: General Language Model Pretraining with Autoregressive Blank Infilling
4.4.2 ChatGLM
  • 發(fā)布時間:2023-01-01
  • 解決問題:開源,并針對中文進(jìn)行了優(yōu)化,尤其是可以在自己的機器上搭建其簡版的int4服務(wù),實測回答一般性問題效果還不錯。
  • 方法:ChatGLM是使用中英雙語預(yù)訓(xùn)練的大語言模型,在穩(wěn)定性和性能方面進(jìn)行了調(diào)優(yōu)。在模型結(jié)構(gòu)上結(jié)合了GPT和BERT。在英文方面,效果優(yōu)于GPT-3;在中文方面,優(yōu)于260B參數(shù)的ERNIE TITAN 3.0??稍?×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPUs 環(huán)境下運行。
    不僅包括自監(jiān)督的GLM自回歸空白填充,還包括對小部分token的多任務(wù)學(xué)習(xí),以提升其下游zero-shot任務(wù)的性能。
  • 模型結(jié)構(gòu):同GLM。
  • 數(shù)據(jù)和模型規(guī)模:具有130B參數(shù)(1300億),包括1.2 T英語、1.0 T的中文悟道語料庫,以及從網(wǎng)絡(luò)爬取的250G中文語料庫(包括在線論壇、百科全書和QA),形成了平衡的英漢內(nèi)容構(gòu)成。
  • 亮點:搭建方法
  • 論文地址:GLM-130B: AN OPEN BILINGUAL PRE-TRAINED

4.5 DeepMind

DeepMind 圍繞提升模型性能展開研究,其研究為后繼的模型精減和優(yōu)化,和更廣闊的使用場景奠定了基礎(chǔ)。

4.5.1 Gopher
  • 發(fā)布時間:2021-12-08
  • 解決問題:經(jīng)過實驗得出結(jié)論:任何學(xué)術(shù)科目,連同一般知識,通過模型改進(jìn)模型規(guī)模都能提升其效果,但規(guī)模對邏輯推理、常識和數(shù)學(xué)任務(wù)的好處較少。
  • 方法:DeepMind 訓(xùn)練了 6 個不同大小的模型,從 44M 參數(shù)到 280B 參數(shù)的 Gopher 模型,進(jìn)行比較,他們在一組 152 個任務(wù)上評估了模型,Gopher 打破了 100 項記錄。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:10.5TB語料庫上進(jìn)行訓(xùn)練,280 B參數(shù)。
  • 論文地址:Scaling Language Models: Methods, Analysis & Insights from Training Gopher
4.5.2 Chinchillla
  • 發(fā)布時間:2022-03-29
  • 解決問題:針對訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,以及數(shù)據(jù)訓(xùn)練量,得出結(jié)論:更長的訓(xùn)練時間,更多token,能提升模型效果;大模型的參數(shù)量和性能之間存在冪律分布。
  • 方法:在 5 到 5000 億個標(biāo)記上訓(xùn)練 400 多個語言模型,范圍從 7000 萬到超過 160 億個參數(shù),把參數(shù)量和數(shù)據(jù)規(guī)模加入Loss的懲罰。在運算量固定的情況下,如何選擇參數(shù)和token量的配比,使損失函數(shù)最小;它對Gopher的進(jìn)行調(diào)整,將模型大小變?yōu)槠?/4,token變?yōu)槠?倍,與Gopher計算量基本一致。
  • 模型結(jié)構(gòu):同Gopher
  • 數(shù)據(jù)和模型規(guī)模:10.5TB語料庫上進(jìn)行訓(xùn)練,70B模型參數(shù)。
  • 論文地址:Training Compute-Optimal Large Language Models

4.6 MicroSoft

本月微軟發(fā)布的兩篇文章(2023年03月),相對偏具體的應(yīng)用場景,以及語言模型和其它(如圖片)數(shù)據(jù)相結(jié)合實現(xiàn)的應(yīng)用效果,盡管把文本和圖本映射到同一嵌入空間;通過調(diào)整提示調(diào)用ChatGPT和圖像修改工具,并不是首次提出,但是實現(xiàn)的效果還是很炫酷有趣的。

4.6.1 Visual ChatGPT
  • 發(fā)布時間:2023-03-08
  • 解決問題:在ChatGPT和圖像構(gòu)建方法間做了橋接,和其它模型相比,除了利用大語言模型中的知識,還利用了ChatGPT強化學(xué)習(xí)帶來的能力,
  • 方法:主要對聊天的場景進(jìn)行優(yōu)化,在提示上作文章。即:在ChatGPT外邊包了一層,這也是當(dāng)前最常見的用法,文章偏工程化的具體實現(xiàn)。將CoT的潛力擴展到大規(guī)模任務(wù),包括但不限于文本生成高清圖像、圖像到圖像的翻譯、圖像到文本的生成等。
  • 模型結(jié)構(gòu):主要組合調(diào)用現(xiàn)有模型,設(shè)計了一個Prompt Manager,其中涉及22個不同的虛擬功能矩陣,并定義了它們之間的內(nèi)部關(guān)聯(lián),以便更好地交互和組合。
  • 數(shù)據(jù)和模型規(guī)模:(OpenAI “text-davinci-003” version)
  • 論文地址:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
4.6.2 Kosmos-1
  • 發(fā)布時間:2023-03-01
  • 解決問題:主要研究視覺和文本領(lǐng)域的對齊,具體應(yīng)用是看圖回答問題。KOSMOS - 1是一種多模態(tài)語言模型,能夠感知通用模態(tài)、遵循指令、在語境中學(xué)習(xí)并產(chǎn)生輸出。
  • 方法:也沒太說具體是怎么做的,主要是提出概念,展示能力。
  • 模型結(jié)構(gòu):包含單模態(tài)數(shù)據(jù)和多模態(tài)數(shù)據(jù)。使用單模態(tài)數(shù)據(jù)進(jìn)行表示學(xué)習(xí)。例如,利用文本數(shù)據(jù)進(jìn)行語言建模預(yù)訓(xùn)練指令跟隨、語境學(xué)習(xí)、各種語言任務(wù)等。此外,用跨模態(tài)對和交錯數(shù)據(jù)學(xué)習(xí)將一般模態(tài)的感知與語言模型對齊。
  • 數(shù)據(jù)和模型規(guī)模:1.3 B的參數(shù)。
  • 亮點:應(yīng)用場景:回答圖片智力題,直接OCR 備2_論文閱讀_Kosmos-1
  • 論文地址:Language Is Not All You Need: Aligning Perception with Language Models

4.7 其它大模型

還有一些大語言模型也有著里程碑的意義,比如:MT-NLG 530B,當(dāng)時首次把模型擴展到 500+B的量級,示范了訓(xùn)練單體超大模型的方法;又如 BLOOM 是一個開放的模型,任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。它們也常常在其它文章中用作模型對比的基線。文章來源地址http://www.zghlxwxcb.cn/news/detail-407783.html

4.7.1 Megatron–Turing NLG(威震天-圖靈,MT-NLG 530B)
  • 發(fā)布時間:2021年10月
  • 解決問題:英偉達(dá)和微軟合作訓(xùn)練模型,示范了訓(xùn)練單體超大模型的方法,
  • 方法:4480塊A100訓(xùn)練,DeepSpeed & Megatron 三維并行訓(xùn)練技術(shù)。DeepSpeed 是一個深度學(xué)習(xí)優(yōu)化庫,讓分布式訓(xùn)練變得簡單、高效且有效,Megatron-LM 是由 NVIDIA 的應(yīng)用深度學(xué)習(xí)研究團隊開發(fā)的大型、強大的 transformer 模型框架。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模:530 B 參數(shù)
  • 論文地址:Using DeepSpeed and Megatron to Train Megatron-Turing NLG
    530B, A Large-Scale Generative Language Model
4.7.2 BLOOM
  • 發(fā)布時間:模型的訓(xùn)練于 2022 年 3 月至 7 月期間,耗時約 3.5 個月完成,在2022年11月上傳arxiv。
  • 解決問題:Hugging Face 聯(lián)合創(chuàng)始人發(fā)起,多方聯(lián)合,BigScience 的研究人員發(fā)布的開源模型。BLOOM最大的特點在于可訪問性,任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。
  • 方法:Megatron & DeepSpeed 訓(xùn)練。
  • 模型結(jié)構(gòu):Decoder結(jié)構(gòu)。
  • 數(shù)據(jù)和模型規(guī)模: 176 B參數(shù),1.5TB 經(jīng)過大量去重和清洗的文本,包含 46 種語言,最終轉(zhuǎn)換為 350B token。
  • 論文地址:BLOOM: A 176B-Parameter Open-Access Multilingual
    Language Model

到了這里,關(guān)于自然語言大模型介紹的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 自然語言處理(NLP)一直是人工智能領(lǐng)域的一項重要任務(wù),其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析?

    作者:禪與計算機程序設(shè)計藝術(shù) 自然語言處理(NLP)一直是人工智能領(lǐng)域的一項重要任務(wù),其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析,成為一個重要研究課題。近年來,隨著計算能力的提升和硬件性能的增強,大規(guī)模

    2024年02月09日
    瀏覽(20)
  • 【多模態(tài)】2、NLTK | 自然語言處理工具包簡介

    【多模態(tài)】2、NLTK | 自然語言處理工具包簡介

    NLTK 全稱是 Natural Language Toolkit,自然語言處理工具包,是 NLP 領(lǐng)域中常用的 python 庫 NLTK 的作用: 語料庫 文本預(yù)處理:文本清洗、文本標(biāo)準(zhǔn)化 分詞:將一段連續(xù)的文本劃分為單獨的詞語或符號 … NLTK 如何使用: 但一般下載不下來,會出現(xiàn)如下報錯: 可以去官網(wǎng)下載,并注釋

    2024年02月16日
    瀏覽(24)
  • NLP自然語言介紹

    自然語言處理(Natural Language Processing, NLP)是人工智能領(lǐng)域中研究和處理人類語言的一項技術(shù)。它涉及將人類語言轉(zhuǎn)化為計算機可理解和處理的形式,以便計算機能夠理解、分析、生成和回復(fù)自然語言。 NLP技術(shù)的目標(biāo)是使計算機能夠像人類一樣理解和處理語言。它包括以下幾

    2024年01月24日
    瀏覽(30)
  • NLP自然語言處理介紹

    自然語言處理(NLP,Natural Language Processing)是一門涉及計算機與人類語言之間交互的學(xué)科。它的目標(biāo)是使計算機能夠理解和生成人類語言,從而更好地處理和解析大量的文本數(shù)據(jù)。NLP不僅是人工智能領(lǐng)域中一個重要的分支,也是當(dāng)今社會應(yīng)用廣泛的領(lǐng)域之一。 在NLP中,一個基

    2024年01月21日
    瀏覽(48)
  • 《大型語言模型自然語言生成評估》綜述

    《大型語言模型自然語言生成評估》綜述

    在快速發(fā)展的自然語言生成(NLG)評估領(lǐng)域中,引入大型語言模型(LLMs)為評估生成內(nèi)容質(zhì)量開辟了新途徑,例如,連貫性、創(chuàng)造力和上下文相關(guān)性。本綜述旨在提供一個關(guān)于利用LLMs進(jìn)行NLG評估的全面概覽,這是一個缺乏系統(tǒng)分析的新興領(lǐng)域。 我們提出了一個連貫的分類體

    2024年01月23日
    瀏覽(26)
  • 自然語言處理(NLP)-spacy簡介以及安裝指南(語言庫zh_core_web_sm)

    自然語言處理(NLP)-spacy簡介以及安裝指南(語言庫zh_core_web_sm)

    spacy 簡介 spacy 是 Python 自然語言處理軟件包,可以對自然語言文本做詞性分析、命名實體識別、依賴關(guān)系刻畫,以及詞嵌入向量的計算和可視化等。 使用 “pip install spacy\\\" 報錯, 或者安裝完 spacy,無法正常調(diào)用,可以通過以下鏈接將 whl 文件下載到本地,然后 cd 到文件路徑下

    2024年01月16日
    瀏覽(27)
  • AI&BlockChain:“知名博主獨家講授”人工智能創(chuàng)新應(yīng)用競賽【精選實戰(zhàn)作品】之《基于計算機視覺、自然語言處理、區(qū)塊鏈和爬蟲技術(shù)的智能會議系統(tǒng)》軟件系統(tǒng)案例的界面簡介、功能介紹分享之總篇

    AI&BlockChain:“知名博主獨家講授”人工智能創(chuàng)新應(yīng)用競賽【精選實戰(zhàn)作品】之《基于計算機視覺、自然語言處理、區(qū)塊鏈和爬蟲技術(shù)的智能會議系統(tǒng)》軟件系統(tǒng)案例的界面簡介、功能介紹分享之總篇

    AIBlockChain:“知名博主獨家講授”人工智能創(chuàng)新應(yīng)用競賽【精選實戰(zhàn)作品】之《基于計算機視覺、自然語言處理、區(qū)塊鏈和爬蟲技術(shù)的智能會議系統(tǒng)》軟件系統(tǒng)案例的界面簡介、功能介紹分享之總篇 前言 :博主目前已經(jīng)積累了非常多的基于 人工智能技術(shù) 和 區(qū)塊鏈技術(shù) 相關(guān)

    2024年02月11日
    瀏覽(94)
  • 自然語言文本分類模型代碼

    ????????以下是一個基于PyTorch的文本分類模型的示例代碼,用于將給定的文本分為多個預(yù)定義類別: ????????該模型將輸入的文本作為整數(shù)序列傳遞給嵌入層,然后通過多層LSTM層進(jìn)行處理,最終輸出每個類別的預(yù)測概率。 ????????在訓(xùn)練模型之前,需要將文本序列

    2024年02月14日
    瀏覽(25)
  • 自然語言模型的哲學(xué)小談

    自然語言模型的哲學(xué)小談

    近期,以chatGPT為代表的大語言模型表現(xiàn)非常驚艷?!癐n Context Learning”、“Instruct” 1 ,以及推理能力,很難不讓我們期待未來人工智能的發(fā)展,同時冷靜思考一下為什么自然語言模型能夠取得巨大進(jìn)步。 我們是如何思考的?人類在不張嘴的情況下,會進(jìn)行哪些活動?或者說

    2024年02月03日
    瀏覽(21)
  • 《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型

    《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型

    這是閱讀《自然語言處理-基于預(yù)訓(xùn)練模型的方法》的學(xué)習(xí)筆記,記錄學(xué)習(xí)過程,詳細(xì)的內(nèi)容請大家購買書籍查閱。 同時參考沐神的兩個視頻: GPT,GPT-2,GPT-3 論文精讀【論文精讀】 BERT 論文逐段精讀【論文精讀】 自然語言處理的核心在于如何更好地建模語言。廣義上的預(yù)訓(xùn)

    2024年02月10日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包