国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<track id="fvyll"><abbr id="fvyll"></abbr></track>

<label id="fvyll"></label>

自然語言大模型介紹

2年前作者：xieyan0811分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了自然語言大模型介紹。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1 簡介

最近一直被大語言模型刷屏。本文是周末技術(shù)分享會的提綱，總結(jié)了一些自然語言模型相關(guān)的重要技術(shù)，以及各個主流公司的研究方向和進(jìn)展，和大家共同學(xué)習(xí)。

2 Transformer

目前的大模型基本都是Transformer及其變種。本部分將介紹Transformer基礎(chǔ)模型及其主要變種。

2.1 Transformer模型

Transformer是一種基于自注意力機制的模型，由Encoder和Decoder兩部分組成。
下圖是精典論文《Attention is all you need》中展示的模型結(jié)構(gòu)圖，左邊是Encoder，右邊是Decoder，

自然語言大模型介紹

在Transformer中，Encoder將輸入序列映射到一個高維空間中，Decoder則將這個高維空間中的向量映射回輸出序列。
在Encoder中，所有的詞一起輸入一起計算；在Decoder中像RNN一樣一個一個詞輸入，將已經(jīng)出現(xiàn)的詞計算得到的Q與Encoder計算得到的K,V進(jìn)行計算，經(jīng)過了全部Decoder層再經(jīng)過FC+Softmax得到結(jié)果之后再把結(jié)果當(dāng)做Decoder的輸入再走一遍整個流程直到得到END標(biāo)簽。
Transformer既有Encoder又有Decoder，主要因為一開始處理的是翻譯任務(wù)，需要先理解整句的意思，再逐字生成翻譯結(jié)果。

Encoder和Decoder的主要區(qū)別包括：

Decoder多包含了一個處理層（編碼器-解碼器注意力），其接入的是Encoder的輸出。
Decoder下面的是 Masked Attention，它屏蔽了下文，只考慮上文對下文的影響。
簡單講：主要差別就是單向/雙向注意力的差別。
論文地址：Attention is All you Need

2.2 自編碼

常見模型：BERT類模型
結(jié)構(gòu)：只有Encoder
方法：雙向上下文，Mask語言模型
場景：編碼器產(chǎn)生適合自然語言理解任務(wù)的上下文表示，常用于解決閱讀理解，完型填空等問題。
缺點：不能支持不確定長度文本的生成，而且依賴前后上下文，這樣就非常限制下游任務(wù)的類型；一般只能在fine-tune后才能在下游任務(wù)中使用，這也將涉及大量人工操作和模型調(diào)參，模型也不能做得太大。
論文地址：BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding

2.3 自回歸

常見模型：GPT-3等模型
結(jié)構(gòu)：只有Decoder
方法：單向上下文本：從左->右，“一個接一個”生成文本。將解碼器自己當(dāng)前步的輸出加入下一步的輸入，因此可以生成后續(xù)不定長的序列。
場景：適用于生成長數(shù)據(jù)，實現(xiàn)大模型，few-shot任務(wù)效果好
缺點：單向注意力，使之無法完全捕獲 NLU 任務(wù)中上下文詞之間的依賴關(guān)系?？梢詫⑵渌蝿?wù)轉(zhuǎn)換成自回歸任務(wù)，比如：“XXXX電影很好看，這是對/錯的”，完型填空題"xxx_yyy，橫線上應(yīng)該填zzz"。這基本就是提示的原理，它讓Decoder類模型可以在不fine-tune的情況適應(yīng)各種類型的下游任務(wù)，同時也擁有了BERT的一些優(yōu)勢——雖然不是雙向的，但應(yīng)學(xué)習(xí)的知識都在前文里。
論文地址：Language Models are Few-Shot Learners

2.4 結(jié)合Encoder和Decoder

常見模型：T5，GLM
結(jié)構(gòu)：結(jié)合Encoder和Decoder
方法：在Encoder中使用雙向上下文，Docoder使用單向，在E和D間使用交叉注意力。
場景：主要用于有條件的文本生成，比如生成摘要，回答問題
缺點：需要更多參數(shù)。

2.4.1 T5

自然語言大模型介紹

第一種方式實現(xiàn)上面提到的翻譯功能，只使用其Encoder部分，如BERT。
第二種方式是根據(jù)上文生成下文，如GPT
第三種方式在序列的前綴部分使用完全可見的掩碼，如在上面提到的英語到德語的翻譯示例中，完全可見的掩碼將應(yīng)用于前綴“translate English to German: That is good.target：”使用因果掩蔽來預(yù)測目標(biāo)“Das ist gut”。（對條件使用雙向，對結(jié)果使用單向）。

2.4.2 GLM

方法自回歸的空白填充

自然語言大模型介紹

3 模型變遷

BERT（Devlin et al.，2018）
GPT-2（Radford et al.，2019）
MegatronLM（Shoeybi et al.，2019）
T5（Raffel et al，2019）。
GPT-3（Brown et al.，2020 年）取得了重大突破
開始大模型
Jurassic-1（Lieber et al.，2021）
Megatron-Turing NLG 2022)
Gopher (Rae et al., 2021)
Chinchilla (Hoffmann et al., 2022)
PaLM (Chowdhery et al., 2022)
OPT (Zhang et al., 2022)
GLM (Zeng et al., 2022)

自然語言大模型介紹

4 主流大模型

思想 & 結(jié)構(gòu) & 應(yīng)用（道術(shù) 技）
一般稱參數(shù)大于100B的語言模型為大語言模型。
大模型主要用于解決few shot, zero shot問題。

4.1 Google

Google 的幾篇文章從模型架構(gòu)，算法優(yōu)化，模型規(guī)模，應(yīng)用場景，以及大語言模型指導(dǎo)機器人同步推理；對話場景中的其它應(yīng)用（搜索、翻譯、計算器）結(jié)合等方面進(jìn)行了廣泛探索，且基本都是開源的。

4.1.1 T5模型

發(fā)布時間：2019-06-11
解決問題：T5是Transfer Text-to-Text Transformer的簡寫，它是一種NLP Text-to-Text預(yù)訓(xùn)練模型。它的輸入是文本，輸出也是文本，模型使用遷移學(xué)習(xí)的技術(shù)，使用Transformer架構(gòu)。其目標(biāo)是給整個 NLP 預(yù)訓(xùn)練模型領(lǐng)域提供了一個通用框架，把所有任務(wù)都轉(zhuǎn)化成一種形式。
方法：提出了Encoder加Decoder的新結(jié)構(gòu)，結(jié)合了BERT和GPT結(jié)構(gòu)的優(yōu)勢。將任務(wù)轉(zhuǎn)換成合適的文本輸入輸出。
模型結(jié)構(gòu)：Encoder+Decoder
模型和數(shù)據(jù)規(guī)模：包含 3B（Billion）和11B版本，處理后最終生成了750GB的數(shù)據(jù)集C4，并且在TensorFlow Datasets開放了數(shù)據(jù)。
亮點：模型結(jié)構(gòu)，整體框架
論文地址：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

4.1.2 LaMDA

發(fā)布時間：2022-02-10
解決問題：調(diào)優(yōu)對話機器人。提升模型的安全性和事實性，同時可利用外部知識來源，如：信息檢索系統(tǒng)、語言翻譯器和計算器——結(jié)合了自然語言模型與其它工具。
方法：利用眾包方式，選擇人類偏好的回答，利用標(biāo)注數(shù)據(jù)finetune模型。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：1.56T 詞進(jìn)行預(yù)訓(xùn)練，137B 參數(shù)。
亮點：結(jié)合了自然語言模型和其它工具，功能有點像newbing
論文地址：LaMDA: Language Models for Dialog Applications

4.1.3 引導(dǎo)調(diào)優(yōu)

發(fā)布時間：2022-02-08
解決問題：在通過指令描述的一組數(shù)據(jù)集上微調(diào)語言模型，它顯著提高了未見任務(wù)的 zero-shot 性能。FLAN 的性能相對于LaMDA每個任務(wù)平均值提升了10左右。
方法：將此類模型稱為FLAN（Finetuned Language Net），用 Tensorflow Datasets 上公開可用的 62 個文本數(shù)據(jù)集，劃分為十二種任務(wù)，針對每種任務(wù)編寫模板，用于調(diào)優(yōu)模型。指令調(diào)優(yōu)管道混合了所有數(shù)據(jù)集并從每個數(shù)據(jù)集中隨機抽樣。為了平衡不同大小的數(shù)據(jù)集，將每個數(shù)據(jù)集的訓(xùn)練示例數(shù)量限制為 30k，并遵循示例比例混合方案。
數(shù)據(jù)結(jié)構(gòu)：同 LaMDA
數(shù)據(jù)和模型規(guī)模：預(yù)訓(xùn)練同LaMDA，精調(diào)使用62個數(shù)據(jù)集數(shù)據(jù)。
亮點：指令調(diào)優(yōu)，見原理圖
論文地址：Finetuned Language Models Are Zero-Shot Learners

4.1.4 GLaM

發(fā)布時間：2022-08-01
解決問題：針對節(jié)約計算資源的研究，推進(jìn)了針對細(xì)分專家領(lǐng)域的發(fā)展。
方法：一種混合專家（MoE）模型，可以將其視為具有不同子模型（或?qū)＜遥┑哪Ｐ?，每個子模型都專門針對不同的輸入。每層中的專家由門控網(wǎng)絡(luò)控制，該網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。每次只激活8%的子網(wǎng)絡(luò)。
模型結(jié)構(gòu)：MoE，Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：最大的 GLaM 有 1200B 參數(shù)，大約是 GPT-3 的 7 倍，卻僅消耗用于訓(xùn)練 GPT-3 的 1/3 的能量，并且需要一半的計算觸發(fā)器來進(jìn)行推理；質(zhì)量篩選數(shù)據(jù)對模型訓(xùn)練的影響。過濾后的網(wǎng)頁包含 143B 個token，而未過濾的網(wǎng)頁包含大約 7T 個token，實驗說明有些任務(wù)需要高質(zhì)量數(shù)據(jù)訓(xùn)練。
亮點：模型結(jié)構(gòu)，見模型結(jié)構(gòu)圖
論文地址：GLaM：Efficient Scaling of Language Models with Mixture-of-Experts

4.1.5 PaLM

發(fā)布時間：2022-10-05
解決問題：作者認(rèn)為當(dāng)模型大到一定程度后，其性能也能飛躍，而PathWay技術(shù)是其大規(guī)模訓(xùn)練的基礎(chǔ)。PaLM更關(guān)注邏輯推理相關(guān)的任務(wù)，這也為后面的PaLM-E機器人行為規(guī)劃奠定了基礎(chǔ)。
方法：推理鏈提示和大模型都明顯提升了模型的推理能力。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：使用6144 個芯片訓(xùn)練，模型8B/62B/540B參數(shù)，780 B高質(zhì)量token，密集激活。數(shù)據(jù)基于訓(xùn)練 LaMDA和GLaM的數(shù)據(jù)，除了自然語言，還包含多種編程語言的源代碼。根據(jù)文件之間的 Levenshtein 距離刪除重復(fù)項。
亮點：大模型&推理部分&模型解釋（6.3 推理，9. 探索解釋）
論文地址：PaLM: Scaling Language Modeling with Pathways

4.1.6 PaLM-E

發(fā)布時間：2023-03-06
解決問題：通過多模態(tài)接入了視頻，傳感器，將大模型學(xué)到的知識應(yīng)用于機器人領(lǐng)域，進(jìn)一步解決世界中的交互問題。PaLM-E直接產(chǎn)生動作的計劃，從而讓機器人自己規(guī)劃過程。
方法：將圖像和狀態(tài)等輸入嵌入到與語言標(biāo)記相同的隱空間中，并由基于Transformer的LLM的自注意力層以與文本相同的方式進(jìn)行處理，輸出可以是問題的答案，或者文本形式生成的、由機器人執(zhí)行的決策序列。
模型結(jié)構(gòu)：Decoder解碼器；提出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，支持多模態(tài)token。模型包含三部分：觀測數(shù)據(jù)編碼器，映射器和自然語言模型。
數(shù)據(jù)和模型規(guī)模：訓(xùn)練的最大模型有 562B 參數(shù)，包含540B語言參數(shù)和22B視覺參數(shù)。
亮點：論文實驗部分
論文地址：PaLM-E: An Embodied Multimodal Language Model

4.2 Meta（Facebook）

Meta 更偏重于模型的應(yīng)用場景，在模型規(guī)模，減少標(biāo)注開銷，提升質(zhì)量等方面進(jìn)行了研究，尤其是其發(fā)布的 LLaMA 目前已經(jīng)成為各個經(jīng)濟適用模型的基礎(chǔ)模型，可能很快成為DIY的主流框架。本部分除了 Meta公司的研究，還介紹了兩個 LLaMA 的衍生產(chǎn)品。

4.2.1 OPT-175B

發(fā)布時間：2022-05-03
解決問題：超大規(guī)模語言模型，該模型是當(dāng)時第一個模型參數(shù)超過千億級別的開放模型，該模型與GPT-3相比，更加開放及便于訪問。
方法：訓(xùn)練 125M - 175B 各種大小的模型，經(jīng)過一系列優(yōu)化，只使用了GPT-3的1/7的訓(xùn)練資源。這是通過結(jié)合Meta的開源完全分片數(shù)據(jù)并行(FSDP) API和NVIDIA的張量并行抽象在Megetron-LM中實現(xiàn)的。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：175B參數(shù)
論文地址：OPT: Open Pre-trained Transformer Language Models

4.2.2 Self instruct

發(fā)布時間：2022-12-20
解決問題：對引導(dǎo)精調(diào)的優(yōu)化，之前引導(dǎo)精調(diào)主要使用人工處理的數(shù)據(jù)，數(shù)據(jù)量和范圍都有限，本文通過示范少量引導(dǎo)示例，讓模型自己生成引導(dǎo)數(shù)據(jù)對模型進(jìn)行優(yōu)化。經(jīng)過自引導(dǎo)可使基礎(chǔ)模型的GPT-3提升33%，與InstructGPT001差不多的效果。
方法：自引導(dǎo)過程是一個迭代自舉算法。在第一階段，模型被提示為新任務(wù)生成指令。此步驟利用現(xiàn)有的指令集合來創(chuàng)建更廣泛的指令定義任務(wù)；然后，在將低質(zhì)量和重復(fù)的指令添加到任務(wù)池之前，使用各種措施對其進(jìn)行修剪；針對許多交互重復(fù)此過程，直到生成大量任務(wù)。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：以GPT-3作為基礎(chǔ)，產(chǎn)生大約 52k 條指令，與大約 82k 實例輸入和目標(biāo)輸出配對。
亮點：需要更少的人工標(biāo)注數(shù)據(jù)
論文地址：Self-Instruct: Aligning Language Model with Self Generated Instructions

4.2.3 LLaMA

發(fā)布時間：2023-02-27（論文發(fā)布時間）
解決問題：開源項目，以小取勝。使用更多token訓(xùn)練，更少的模型參數(shù)。其小模型可以運行在單GPU環(huán)境下，65B大模型可與PaLM模型效果競爭。
方法：大模型在Few Shot上表現(xiàn)好，主要歸功于大模型的參數(shù)量。本文至力于找到合適的數(shù)據(jù)量和參數(shù)量，以實現(xiàn)快速推理。調(diào)整模型結(jié)構(gòu)，提升訓(xùn)練和預(yù)測速度。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：模型從7B-65B參數(shù)，使用T級別token訓(xùn)練。在訓(xùn)練 65B 參數(shù)模型時，代碼在具有 80GB RAM 的 2048 A100 GPU。對包含 1.4T 令牌的數(shù)據(jù)集進(jìn)行訓(xùn)練大約需要 21 天。
論文地址：LLaMA: Open and Efficient Foundation Language Models

4.2.4 ColossalChat

發(fā)布時間：2023-02-15
解決問題：開源完整 RLHF 訓(xùn)練代碼，已開源含7B、13B兩種模型。體驗最小 demo 訓(xùn)練流程最低僅需 1.62GB 顯存，任意單張消費級 GPU 即可滿足。
方法：以Meta最新開源的LLaMA為基礎(chǔ)預(yù)訓(xùn)練模型。用于通過完整的RLHF管道克隆ChatGPT。該管道包括監(jiān)督數(shù)據(jù)收集、監(jiān)督微調(diào)、獎勵模型訓(xùn)練和強化學(xué)習(xí)微調(diào)，基于LLaMA預(yù)訓(xùn)練模型。它只需要不到10B個參數(shù)，就可以通過RLHF微調(diào)在中英文雙語能力方面達(dá)到與ChatGPT和GPT-3.5相似的效果。
模型結(jié)構(gòu)：同 LLaMA
數(shù)據(jù)和模型規(guī)模：英雙語數(shù)據(jù)集，訓(xùn)練的英文一共 24M tokens，中文大約 30M tokens，總共約 54M tokens。4bit量化推理70億參數(shù)模型僅需4GB顯存。
詳見：源碼地址 24.3K star

4.2.5 Dolly

發(fā)布時間：2023-03-24（韓國公司）
解決問題：Dolly是一個低成本的LLM，它采用LLaMA為基礎(chǔ)，是具有60億參數(shù)的開源模型。通過指令精調(diào)，使其具有了類似于ChatGPT的交互性?？梢宰约合螺d訓(xùn)練，開發(fā)成本僅需30美元，且開源。
方法：對模型進(jìn)行細(xì)微的修改，以激發(fā)服從指令的能力。斯坦福大學(xué)基于LLaMA構(gòu)建了Alpaca，但不同之處在于，它利用一個包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。即便對一個開源大型語言模型 GPT-J，也能通過30分鐘的訓(xùn)練，賦予它神奇的類似ChatGPT的指令跟隨能力。
模型結(jié)構(gòu)：同 LLaMA
數(shù)據(jù)和模型規(guī)模：使用包含50,000個問題和答案的小數(shù)據(jù)集進(jìn)行了微調(diào)。
詳見：Dolly 低成本生成式 AI

4.3 OpenAI

OpenAI 的 GPT-4 無疑是目前最好的大語言模型，從GPT到GPT-4一路走來，ChatGPT爆發(fā)，可能是我們這個時代最重要的事件之一?？赡苁菫榱吮３诸I(lǐng)先，OpenAI 逐漸轉(zhuǎn)換策略，不再公開具體技術(shù)，常被諷 CloseAI。
最初堅持使用單向Transformer構(gòu)造大模型，現(xiàn)在看的確很有眼光，ChatGPT比GPT-3便宜10倍的價值，搶先占領(lǐng)市場，這個策略可能也是合理的。
而AI、語言模型發(fā)展到今天，也是互聯(lián)網(wǎng)數(shù)據(jù)，軟硬件，深度學(xué)習(xí)，強化學(xué)習(xí)各個領(lǐng)域近年高速發(fā)展和開源的結(jié)果。個人認(rèn)為：無論誰都不太可能一家獨大。

4.3.1 GPT-GPT3.5

詳見：GPT / GPT-2 / GPT-3 / InstructGPT 進(jìn)化之路

4.3.2 GPT-4

發(fā)布時間：2023-03-14
解決問題：評測了GPT-4：一個大規(guī)模的多模態(tài)模型，可以接受圖像和文本輸入并產(chǎn)生文本輸出。提升了利用知識去解決具體問題的能力。對于非常復(fù)雜的指令，GPT-4的理解能力和創(chuàng)造力遠(yuǎn)超3.5。
方法：模型訓(xùn)練具體使用了互聯(lián)網(wǎng)數(shù)據(jù)和一些三方版權(quán)數(shù)據(jù)。然后使用人類反饋強化學(xué)習(xí) (RLHF) 對模型進(jìn)行微調(diào)。
模型結(jié)構(gòu)：延續(xù)了GPT-3的結(jié)構(gòu)
數(shù)據(jù)和模型規(guī)模：報告不包含關(guān)于架構(gòu)(包括模型尺寸)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似的更多細(xì)節(jié)。
亮點：實驗結(jié)果
論文地址：GPT-4 Technical Report

4.4 清華

2022年11月，斯坦福大學(xué)大模型中心對全球30個主流大模型進(jìn)行了全方位的評測，GLM-130B 是亞洲唯一入選的大模型。它準(zhǔn)確性和惡意性指標(biāo)上與 GPT-3 175B (davinci) 接近或持平。
ChatGLM是GLM公開的單機版本，基本是開包即用，又是中英文雙語訓(xùn)練的模型，對中文用戶比較友好。

4.4.1 GLM

發(fā)布時間：2022-01-01
解決問題：通過在結(jié)構(gòu)上的調(diào)整，結(jié)合了GPT和BERT類模型的優(yōu)點，且模型規(guī)模和復(fù)雜度沒有提升。將NLU任務(wù)轉(zhuǎn)換成生成任務(wù)訓(xùn)練模型，使上下游任務(wù)訓(xùn)練方式保持一致。
方法：沒有一個預(yù)訓(xùn)練框架對自然語言理解 (NLU)、無條件生成和條件生成這三個主要類別的所有任務(wù)表現(xiàn)都好。GLM 基于自回歸空白填充來解決這一挑戰(zhàn)。使用了二維的位置編碼，相對于T5模型有更少的參數(shù)，差不多的效果。一個模型同時支持NLU和文本生成，所以是多任務(wù)的訓(xùn)練。
模型結(jié)構(gòu)：GLM基于自回歸的空白填充。從輸入文本中隨機刪除連續(xù)的token(自編碼)，并訓(xùn)練模型以順序重建刪除的token(自回歸)。
數(shù)據(jù)和模型規(guī)模：使用BERT/RoBERT 幾種模型大小相同的數(shù)據(jù)訓(xùn)練模型，以保證對比的公平性。
論文地址：GLM: General Language Model Pretraining with Autoregressive Blank Infilling

4.4.2 ChatGLM

發(fā)布時間：2023-01-01
解決問題：開源，并針對中文進(jìn)行了優(yōu)化，尤其是可以在自己的機器上搭建其簡版的int4服務(wù)，實測回答一般性問題效果還不錯。
方法：ChatGLM是使用中英雙語預(yù)訓(xùn)練的大語言模型，在穩(wěn)定性和性能方面進(jìn)行了調(diào)優(yōu)。在模型結(jié)構(gòu)上結(jié)合了GPT和BERT。在英文方面，效果優(yōu)于GPT-3；在中文方面，優(yōu)于260B參數(shù)的ERNIE TITAN 3.0?？稍?×RTX 3090 (24G) 或 8×RTX 2080 Ti (11G) GPUs 環(huán)境下運行。
不僅包括自監(jiān)督的GLM自回歸空白填充，還包括對小部分token的多任務(wù)學(xué)習(xí)，以提升其下游zero-shot任務(wù)的性能。
模型結(jié)構(gòu)：同GLM。
數(shù)據(jù)和模型規(guī)模：具有130B參數(shù)（1300億），包括1.2 T英語、1.0 T的中文悟道語料庫，以及從網(wǎng)絡(luò)爬取的250G中文語料庫(包括在線論壇、百科全書和QA)，形成了平衡的英漢內(nèi)容構(gòu)成。
亮點：搭建方法
論文地址：GLM-130B: AN OPEN BILINGUAL PRE-TRAINED

4.5 DeepMind

DeepMind 圍繞提升模型性能展開研究，其研究為后繼的模型精減和優(yōu)化，和更廣闊的使用場景奠定了基礎(chǔ)。

4.5.1 Gopher

發(fā)布時間：2021-12-08
解決問題：經(jīng)過實驗得出結(jié)論：任何學(xué)術(shù)科目，連同一般知識，通過模型改進(jìn)模型規(guī)模都能提升其效果，但規(guī)模對邏輯推理、常識和數(shù)學(xué)任務(wù)的好處較少。
方法：DeepMind 訓(xùn)練了 6 個不同大小的模型，從 44M 參數(shù)到 280B 參數(shù)的 Gopher 模型，進(jìn)行比較，他們在一組 152 個任務(wù)上評估了模型，Gopher 打破了 100 項記錄。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：10.5TB語料庫上進(jìn)行訓(xùn)練，280 B參數(shù)。
論文地址：Scaling Language Models: Methods, Analysis & Insights from Training Gopher

4.5.2 Chinchillla

發(fā)布時間：2022-03-29
解決問題：針對訓(xùn)練數(shù)據(jù)量，模型參數(shù)量，以及數(shù)據(jù)訓(xùn)練量，得出結(jié)論：更長的訓(xùn)練時間，更多token，能提升模型效果；大模型的參數(shù)量和性能之間存在冪律分布。
方法：在 5 到 5000 億個標(biāo)記上訓(xùn)練 400 多個語言模型，范圍從 7000 萬到超過 160 億個參數(shù)，把參數(shù)量和數(shù)據(jù)規(guī)模加入Loss的懲罰。在運算量固定的情況下，如何選擇參數(shù)和token量的配比，使損失函數(shù)最小；它對Gopher的進(jìn)行調(diào)整，將模型大小變?yōu)槠?/4，token變?yōu)槠?倍，與Gopher計算量基本一致。
模型結(jié)構(gòu)：同Gopher
數(shù)據(jù)和模型規(guī)模：10.5TB語料庫上進(jìn)行訓(xùn)練，70B模型參數(shù)。
論文地址：Training Compute-Optimal Large Language Models

4.6 MicroSoft

本月微軟發(fā)布的兩篇文章（2023年03月），相對偏具體的應(yīng)用場景，以及語言模型和其它（如圖片）數(shù)據(jù)相結(jié)合實現(xiàn)的應(yīng)用效果，盡管把文本和圖本映射到同一嵌入空間；通過調(diào)整提示調(diào)用ChatGPT和圖像修改工具，并不是首次提出，但是實現(xiàn)的效果還是很炫酷有趣的。

4.6.1 Visual ChatGPT

發(fā)布時間：2023-03-08
解決問題：在ChatGPT和圖像構(gòu)建方法間做了橋接，和其它模型相比，除了利用大語言模型中的知識，還利用了ChatGPT強化學(xué)習(xí)帶來的能力，
方法：主要對聊天的場景進(jìn)行優(yōu)化，在提示上作文章。即：在ChatGPT外邊包了一層，這也是當(dāng)前最常見的用法，文章偏工程化的具體實現(xiàn)。將CoT的潛力擴展到大規(guī)模任務(wù)，包括但不限于文本生成高清圖像、圖像到圖像的翻譯、圖像到文本的生成等。
模型結(jié)構(gòu)：主要組合調(diào)用現(xiàn)有模型，設(shè)計了一個Prompt Manager，其中涉及22個不同的虛擬功能矩陣，并定義了它們之間的內(nèi)部關(guān)聯(lián)，以便更好地交互和組合。
數(shù)據(jù)和模型規(guī)模：(OpenAI “text-davinci-003” version)
論文地址：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

4.6.2 Kosmos-1

發(fā)布時間：2023-03-01
解決問題：主要研究視覺和文本領(lǐng)域的對齊，具體應(yīng)用是看圖回答問題。KOSMOS - 1是一種多模態(tài)語言模型，能夠感知通用模態(tài)、遵循指令、在語境中學(xué)習(xí)并產(chǎn)生輸出。
方法：也沒太說具體是怎么做的，主要是提出概念，展示能力。
模型結(jié)構(gòu)：包含單模態(tài)數(shù)據(jù)和多模態(tài)數(shù)據(jù)。使用單模態(tài)數(shù)據(jù)進(jìn)行表示學(xué)習(xí)。例如，利用文本數(shù)據(jù)進(jìn)行語言建模預(yù)訓(xùn)練指令跟隨、語境學(xué)習(xí)、各種語言任務(wù)等。此外，用跨模態(tài)對和交錯數(shù)據(jù)學(xué)習(xí)將一般模態(tài)的感知與語言模型對齊。
數(shù)據(jù)和模型規(guī)模：1.3 B的參數(shù)。
亮點：應(yīng)用場景：回答圖片智力題，直接OCR 備2_論文閱讀_Kosmos-1
論文地址：Language Is Not All You Need: Aligning Perception with Language Models

4.7 其它大模型

還有一些大語言模型也有著里程碑的意義，比如：MT-NLG 530B，當(dāng)時首次把模型擴展到 500+B的量級，示范了訓(xùn)練單體超大模型的方法；又如 BLOOM 是一個開放的模型，任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。它們也常常在其它文章中用作模型對比的基線。文章來源地址http://www.zghlxwxcb.cn/news/detail-407783.html

4.7.1 Megatron–Turing NLG（威震天-圖靈，MT-NLG 530B）

發(fā)布時間：2021年10月
解決問題：英偉達(dá)和微軟合作訓(xùn)練模型，示范了訓(xùn)練單體超大模型的方法，
方法：4480塊A100訓(xùn)練，DeepSpeed & Megatron 三維并行訓(xùn)練技術(shù)。DeepSpeed 是一個深度學(xué)習(xí)優(yōu)化庫，讓分布式訓(xùn)練變得簡單、高效且有效，Megatron-LM 是由 NVIDIA 的應(yīng)用深度學(xué)習(xí)研究團隊開發(fā)的大型、強大的 transformer 模型框架。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模：530 B 參數(shù)
論文地址：Using DeepSpeed and Megatron to Train Megatron-Turing NLG
530B, A Large-Scale Generative Language Model

4.7.2 BLOOM

發(fā)布時間：模型的訓(xùn)練于 2022 年 3 月至 7 月期間，耗時約 3.5 個月完成，在2022年11月上傳arxiv。
解決問題：Hugging Face 聯(lián)合創(chuàng)始人發(fā)起，多方聯(lián)合，BigScience 的研究人員發(fā)布的開源模型。BLOOM最大的特點在于可訪問性，任何人都可以從Hugging Face網(wǎng)站免費下載它進(jìn)行研究。
方法：Megatron & DeepSpeed 訓(xùn)練。
模型結(jié)構(gòu)：Decoder結(jié)構(gòu)。
數(shù)據(jù)和模型規(guī)模： 176 B參數(shù)，1.5TB 經(jīng)過大量去重和清洗的文本，包含 46 種語言，最終轉(zhuǎn)換為 350B token。
論文地址：BLOOM: A 176B-Parameter Open-Access Multilingual
Language Model

到了這里，關(guān)于自然語言大模型介紹的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

自然語言處理（NLP）一直是人工智能領(lǐng)域的一項重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析?
作者：禪與計算機程序設(shè)計藝術(shù) 自然語言處理（NLP）一直是人工智能領(lǐng)域的一項重要任務(wù)，其涉及到從文本中提取特征、組織數(shù)據(jù)、訓(xùn)練模型等諸多復(fù)雜任務(wù)。如何有效地進(jìn)行文本理解和分析，成為一個重要研究課題。近年來，隨著計算能力的提升和硬件性能的增強，大規(guī)模
2024年02月09日
瀏覽(20)
【多模態(tài)】2、NLTK | 自然語言處理工具包簡介
NLTK 全稱是 Natural Language Toolkit，自然語言處理工具包，是 NLP 領(lǐng)域中常用的 python 庫 NLTK 的作用：語料庫文本預(yù)處理：文本清洗、文本標(biāo)準(zhǔn)化分詞：將一段連續(xù)的文本劃分為單獨的詞語或符號 … NLTK 如何使用：但一般下載不下來，會出現(xiàn)如下報錯：可以去官網(wǎng)下載，并注釋
2024年02月16日
瀏覽(24)
NLP自然語言介紹
自然語言處理（Natural Language Processing, NLP）是人工智能領(lǐng)域中研究和處理人類語言的一項技術(shù)。它涉及將人類語言轉(zhuǎn)化為計算機可理解和處理的形式，以便計算機能夠理解、分析、生成和回復(fù)自然語言。 NLP技術(shù)的目標(biāo)是使計算機能夠像人類一樣理解和處理語言。它包括以下幾
2024年01月24日
瀏覽(30)
NLP自然語言處理介紹
自然語言處理（NLP，Natural Language Processing）是一門涉及計算機與人類語言之間交互的學(xué)科。它的目標(biāo)是使計算機能夠理解和生成人類語言，從而更好地處理和解析大量的文本數(shù)據(jù)。NLP不僅是人工智能領(lǐng)域中一個重要的分支，也是當(dāng)今社會應(yīng)用廣泛的領(lǐng)域之一。在NLP中，一個基
2024年01月21日
瀏覽(48)
《大型語言模型自然語言生成評估》綜述
在快速發(fā)展的自然語言生成（NLG）評估領(lǐng)域中，引入大型語言模型（LLMs）為評估生成內(nèi)容質(zhì)量開辟了新途徑，例如，連貫性、創(chuàng)造力和上下文相關(guān)性。本綜述旨在提供一個關(guān)于利用LLMs進(jìn)行NLG評估的全面概覽，這是一個缺乏系統(tǒng)分析的新興領(lǐng)域。我們提出了一個連貫的分類體
2024年01月23日
瀏覽(26)
自然語言處理（NLP）-spacy簡介以及安裝指南（語言庫zh_core_web_sm）
spacy 簡介 spacy 是 Python 自然語言處理軟件包，可以對自然語言文本做詞性分析、命名實體識別、依賴關(guān)系刻畫，以及詞嵌入向量的計算和可視化等。使用 “pip install spacy\\\" 報錯，或者安裝完 spacy，無法正常調(diào)用，可以通過以下鏈接將 whl 文件下載到本地，然后 cd 到文件路徑下
2024年01月16日
瀏覽(27)
AI&BlockChain：“知名博主獨家講授”人工智能創(chuàng)新應(yīng)用競賽【精選實戰(zhàn)作品】之《基于計算機視覺、自然語言處理、區(qū)塊鏈和爬蟲技術(shù)的智能會議系統(tǒng)》軟件系統(tǒng)案例的界面簡介、功能介紹分享之總篇
AIBlockChain：“知名博主獨家講授”人工智能創(chuàng)新應(yīng)用競賽【精選實戰(zhàn)作品】之《基于計算機視覺、自然語言處理、區(qū)塊鏈和爬蟲技術(shù)的智能會議系統(tǒng)》軟件系統(tǒng)案例的界面簡介、功能介紹分享之總篇前言：博主目前已經(jīng)積累了非常多的基于人工智能技術(shù) 和區(qū)塊鏈技術(shù) 相關(guān)
2024年02月11日
瀏覽(94)
自然語言文本分類模型代碼
????????以下是一個基于PyTorch的文本分類模型的示例代碼，用于將給定的文本分為多個預(yù)定義類別： ????????該模型將輸入的文本作為整數(shù)序列傳遞給嵌入層，然后通過多層LSTM層進(jìn)行處理，最終輸出每個類別的預(yù)測概率。 ????????在訓(xùn)練模型之前，需要將文本序列
2024年02月14日
瀏覽(25)
自然語言模型的哲學(xué)小談
近期，以chatGPT為代表的大語言模型表現(xiàn)非常驚艷?！癐n Context Learning”、“Instruct” 1 ，以及推理能力，很難不讓我們期待未來人工智能的發(fā)展，同時冷靜思考一下為什么自然語言模型能夠取得巨大進(jìn)步。我們是如何思考的？人類在不張嘴的情況下，會進(jìn)行哪些活動？或者說
2024年02月03日
瀏覽(21)
《自然語言處理》chapter7-預(yù)訓(xùn)練語言模型
這是閱讀《自然語言處理-基于預(yù)訓(xùn)練模型的方法》的學(xué)習(xí)筆記，記錄學(xué)習(xí)過程，詳細(xì)的內(nèi)容請大家購買書籍查閱。同時參考沐神的兩個視頻： GPT，GPT-2，GPT-3 論文精讀【論文精讀】 BERT 論文逐段精讀【論文精讀】自然語言處理的核心在于如何更好地建模語言。廣義上的預(yù)訓(xùn)
2024年02月10日
瀏覽(24)

<track id="igkyz"><xmp id="igkyz"></xmp></track>