【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力

這篇具有很好參考價值的文章主要介紹了【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

大語言模型的涌現(xiàn)能力 《Emergent Abilities of Large Language Models》

論文地址：https://arxiv.org/pdf/2206.07682.pdf

相關(guān)博客
【自然語言處理】【ChatGPT系列】WebGPT：基于人類反饋的瀏覽器輔助問答
【自然語言處理】【ChatGPT系列】ChatGPT的智能來自哪里？
【自然語言處理】【ChatGPT系列】Chain of Thought：從大模型中引導出推理能力
【自然語言處理】【ChatGPT系列】InstructGPT：遵循人類反饋指令來訓練語言模型
【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力
【自然語言處理】【文本生成】CRINEG Loss：學習什么語言不建模
【自然語言處理】【文本生成】使用Transformers中的BART進行文本摘要
【自然語言處理】【文本生成】Transformers中使用約束Beam Search指導文本生成
【自然語言處理】【文本生成】Transformers中用于語言生成的不同解碼方法
【自然語言處理】【文本生成】BART：用于自然語言生成、翻譯和理解的降噪Sequence-to-Sequence預訓練
【自然語言處理】【文本生成】UniLM：用于自然語言理解和生成的統(tǒng)一語言模型預訓練
【自然語言處理】【多模態(tài)】OFA：通過簡單的sequence-to-sequence學習框架統(tǒng)一架構(gòu)、任務和模態(tài)

一、簡介

? 語言模型已經(jīng)徹底改變了自然語言處理 $\text{(NLP)}$ ?？偹苤?，增加語言模型的規(guī)模能夠為一系列下游的 $\text{NLP}$ 任務帶來更好的效果和樣本效率。在某些場景中，模型規(guī)模對于模型的效果可以通過 $\text{scaling laws}$ 預測。但是，某些下游任務的效果并沒有隨著規(guī)模的上升而改善。

? 本文討論了大規(guī)模語言模型的涌現(xiàn)能力 $\text{(Emergent Ability)}$ ，一種不可預測的現(xiàn)象。涌現(xiàn)這一概念已經(jīng)在物理、生物、計算機科學等領(lǐng)域被討論了很長時間。本文考慮涌現(xiàn)的一般性定義，來自于諾貝爾物理學獎得主Philip Anderson1972年的一篇文章《More is Different》。
$\text{Emergence is when quantitative changes in a system result in qualitative changes in behavior.}$
本文將討論與模型規(guī)模相關(guān)的涌現(xiàn)能力，并通過訓練計算量和模型參數(shù)進行衡量。本文定義大規(guī)模語言模型的涌現(xiàn)能力為：在小模型上沒有，但是會出現(xiàn)在大模型上的能力。因此，該能力不能通過簡單的對小規(guī)模模型的改善了預測。本文總結(jié)了先前工作中一系列觀察到的涌現(xiàn)能力，并將其分類為 $\text{few-shot prompting}$ 和 $\text{augmented prompting strategies}$ 。涌現(xiàn)現(xiàn)象也會激發(fā)更多的研究，包括為什么能有這樣的能力、是否更大的模型將帶來進一步的涌現(xiàn)。

二、涌現(xiàn)能力定義

? 涌現(xiàn)是一個廣泛的概念，通常有著不同的解釋。本文主要是專注在大規(guī)模語言模型的涌現(xiàn)能力：
$\text{An ability is emergent if it is not present in smaller models but is present in larger models.}$
涌現(xiàn)能力無法使用 $\text{scaling law}$ 來從較小模型上進行預測。當繪制一個尺度曲線， $x$ 軸是模型的尺寸， $y$ 軸是某種能力的效果，那么涌現(xiàn)能力有一個清晰的模式：在某個閾值之前的效果接近隨機，但是超過該閾值后效果將大大高于隨機。

? 當今的語言模型根據(jù)三個因素進行擴展：計算量、模型參數(shù)量和訓練集規(guī)模。本文將繪制各種"訓練量-效果"曲線，每個模型的訓練量通過 $\text{FLOPs}$ 來衡量。由于語言模型使用更多的計算量，也意味著更多的參數(shù)量，所以也額外繪制了 $x$ 軸為模型參數(shù)量的圖。由于大多數(shù)稠密 $\text{Transformer}$ 語言模型都會基于模型的參數(shù)量來粗略估計訓練計算量(也就是參數(shù)量和訓練計算量大致線性相關(guān))，因此使用訓練 $\text{FLOPs}$ 或者模型參數(shù)量作為 $x$ 軸，最終得到的曲線將是相似的。

? 雖然訓練集的尺寸也很重要，但是許多語言模型族對所有尺寸的模型使用了固定數(shù)量的訓練樣本，所以沒辦法繪制相關(guān)的圖。因此，本文專注在訓練計算量和模型尺寸，但是沒有一種單獨的指標能夠充分捕獲所有規(guī)模的性質(zhì)。例如， $\text{Chinchilla}$ 的參數(shù)量是 $\text{GOpher}$ 的四分之一，但是使用相似的訓練計算量。稀疏混合專家模型在每次訓練/推斷時要比稠密模型具有更多的參數(shù)量?？偟膩碚f，明智的做法是將涌現(xiàn)看作是許多相關(guān)變量的函數(shù)。

? 某種能力的涌現(xiàn)尺度取決于許多因素，且這些因素也不是不可改變的屬性。例如，涌現(xiàn)可能出現(xiàn)在高質(zhì)量數(shù)據(jù)上訓練的更少訓練量、更少模型參數(shù)的模型。此外，涌現(xiàn)能力也可能會依賴其他的因素，而不是數(shù)據(jù)量、數(shù)據(jù)質(zhì)量或者模型的參數(shù)量。當今訓練語言模型的方法可能不是最優(yōu)的，并且對于最優(yōu)模型的理解隨著時間推移而進化。

三、 Few-Shot?Prompted \text{Few-Shot Prompted} Few-Shot?Prompted任務

【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力

? 首先討論 $\text{GPT-3}$ 中流行的 $\text{prompting}$ 范式的涌現(xiàn)能力。給預訓練語言模型一個任務相關(guān)的 $\text{prompt}$ ，其不需要任何訓練或者梯度更新就能完成應答。Brown et al.提出了 $\text{few-shot prompting}$ ，其在模型的輸入中包含少量的"輸入-輸出"示例，并要求模型在未見過的樣本上完成任務。上圖是一個 $\text{prompt}$ 例子。

? "通過 $\text{few-shot prompting}$ 來執(zhí)行任務的能力"是一種涌現(xiàn)現(xiàn)象，當模型規(guī)模達到某個閾值之前效果基本等于隨機，超高該閾值夠則會顯著的改善。下圖展示了5個語言模型的8種涌現(xiàn)能力。

【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力

1. BIG-Bench \text{BIG-Bench} BIG-Bench

? 圖A-D是來自于基準 $\text{BIG-Bench}$ 中的4個涌現(xiàn) $\text{few-shot prompted}$ 任務，該基準包含了200多個評估語言模型的基準套件。圖A是一個算術(shù)基準測試，用于測試3位加減法和2位的乘法。 $\text{GPT-3}$ 和 $\text{LaMDA}$ 的訓練量較小時的效果基于接近于0，而 $\text{GPT-3}$ 在訓練量達到 $2\cdot 10^{22}\text{ FLOPs}$ 后效果突然超越隨機，而 $\text{LaMDA}$ 的閾值為 $10^{23}\text{ FLOPs}$ 。對于其他任務來說，類似的涌現(xiàn)能力也發(fā)生在相同的規(guī)模，包含：國際音標翻譯(圖B)、從混亂的字母中恢復出單詞(圖C)、以及波斯語問答。文章的附錄E中給出了 $\text{BIG-Bench}$ 上更多的涌現(xiàn)能力。

2. TruthfulQA \text{TruthfulQA} TruthfulQA

? 上圖E展示了 $\text{TruthfulQA}$ 基準上的 $\text{few-shot prompted}$ 涌現(xiàn)能力，該基準用來衡量誠實回答問題的能力。該基準是通過對抗的方式針對 $\text{GPT-3}$ 構(gòu)建的，所以即使將 $\text{GPT-3}$ 放大到最大的規(guī)模，其效果也不會高于隨機。小尺寸的 $\text{Gopher}$ 模型效果也接近隨機，但是當模型放大至 $5\cdot 10^{23} \text{ FLOPs(280B)}$ ，其效果會突然高于隨機20%。

3. Grounded?conceptual?mappings \text{Grounded conceptual mappings} Grounded?conceptual?mappings

? 上圖F展示了 $\text{Grounded conceptual mappings}$ 任務，該任務中語言模型必須學會映射一個概念領(lǐng)域，例如：理解文本中方向的表示。同樣，使用大的 $\text{GPT-3}$ 模型效果才能超過隨機。

4. Multi-task?language?understanding \text{Multi-task language understanding} Multi-task?language?understanding

? 上圖G展示了 $\text{Massive Multi-task Language Understanding(MMLU)}$ 基準，該基準包含了57個測試，覆蓋主題包含數(shù)學、歷史、法律等等。對于模型 $\text{GPT-3、Gopher、Chinchilla}$ ，當訓練計算量小于 $10^{22} \text{FLOPs}$ 時，在所有的主題上效果都解決隨機，但是當訓練計算量達到 $\text{3-5}\cdot 10^{23}\text{ FLOPs(70B-280B)}$ 后效果將遠遠超過隨機。該結(jié)果并不令人驚奇，這意味著解決那些需要大量主題集合并且基于知識的問題的能力可能需要超過某個閾值。

5. Word?in?Context \text{Word in Context} Word?in?Context

? 最后，上圖H展示了 $\text{Word in Context}$ 基準，該基準是一個語義理解基準。顯然， $\text{GPT-3}$ 和 $\text{Chinchilla}$ 即使放大至最大的尺寸 $\sim 5\cdot 10^{23} \text{ FLOPs}$ ，也不能通過one-shot實現(xiàn)比隨機更好的效果。目前為止的結(jié)果表明單純的發(fā)大模型并不能解決 $\text{Word in Context}$ 基準，但是當 $\text{PaLM}$ 被縮放至 $2.5\cdot10^{24}\text{ FLOPs(540B)}$ 時，高于隨機的效果出現(xiàn)了。

四、 Augmented?Prompting \text{Augmented Prompting} Augmented?Prompting策略

? 雖然 $\text{few-shot prompting}$ 是目前與大規(guī)模語言模型交互最常用的方法，但近期的工作提出了其他prompting和微調(diào)策略來進一步增強語言模型的能力。若某一項技術(shù)對于baseline沒有改進或者是有害的，但是當模型達到某個規(guī)模后該技術(shù)就生效了，則認為該技術(shù)也是涌現(xiàn)能力。

【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力

1. 多步推理

? 多步推理對于語言模型來說非常有挑戰(zhàn)。近期，一種稱為 $\text{chain-of-thought prompting}$ 的 $\text{prompting}$ 策略能夠使模型解決多步推理問題，該策略要求語言模型在給出答案之前產(chǎn)生出一系列的中間步驟。如上圖A所示，當模型規(guī)模達到 $10^{23}\text{ FLOPs}(\sim\text{100B})$ ， $\text{chain-of-thought prompting}$ 就會超越標準的 $\text{prompting}$ 。

2. 指令遵循 (Instruction?following) \text{(Instruction following)} (Instruction?following)

? 另一個正則快速發(fā)展的工作時，通過讓語言模型來閱讀描述任務的指令來讓其更好的執(zhí)行新任務。通過對混合任務的指令進行微調(diào)，語言模型可以對一個未見過的任務做出適當?shù)膽?。如上圖B所示，Wei et al.發(fā)現(xiàn)該 $\text{instruction-finetuning}$ 技術(shù)對于訓練量小于 $7\cdot10^{21}\text{ FLOPs(8B)}$ 的模型效果有害，僅能夠改善訓練量大于 $10^{23}\text{ FLOPs}(\sim\text{100B})$ 的模型。

3. Program execution

? 對于多步計算問題，Nye et al.的研究顯示，對語言模型進行微調(diào)來預測中間輸出可以使模型成功執(zhí)行這種多步運算。如上圖C所示，對于8位數(shù)加法，僅對訓練量為 $\sim 9\cdot 10^{19}\text{ FLOPs}$ 的模型有用。

4. Model calibration

? 最后一個重要的語義模型研究方向是模型校準，也就是衡量模型是否能夠預測出其對哪些問題能夠回答正確。Kadavath et al.比較了兩種校準方法：1. True/False技術(shù)，模型先給出答案，然后讓模型評估這個答案的正確性；2. 更標準的校驗方法，使用正確答案的概率與其他答案進行對比。如上圖D所示，True/False技術(shù)只有當模型規(guī)模達到 $\sim 3\cdot10^{23}\text{FLOPs}$ 才能有效。

五、討論

? 上面的實驗中的能力只有在足夠大的語義模型上才能觀察到，因此這些能力的涌現(xiàn)并不能通過外推小規(guī)模模型來簡單預測。涌現(xiàn)出來的 $\text{few-shot prompted}$ 能力是不可預測的，因為這些能力并沒有包含預訓練任務中，并且我們無法知道語言模型執(zhí)行 $\text{few-shot prompted}$ 任務的全部范圍。語言模型目前還有很多不能通過涌現(xiàn)實現(xiàn)的能力，包括 $\text{BIG-Bench}$ 中數(shù)十個任務，這些任務即使是最大的 $\text{GPT-3}$ 和 $\text{PaLM}$ 模型都不能實現(xiàn)高于隨機的表現(xiàn)。

1. 涌現(xiàn)的潛在解釋

? 雖然已經(jīng)有數(shù)十個涌現(xiàn)能力的例子，但是對于這種能力為什么會以這種方式出現(xiàn)還沒有令人信服的解釋。對于某個任務為什么涌現(xiàn)需要模型規(guī)模超過某個閾值，可能有一種直覺上的解釋。例如，若一個多步推理需要 $l$ 步的序列計算，這可能需要模型至少有 $O (l)$ 層的深度。一個合理的假設(shè)，更多的參數(shù)和更多的訓練能夠確保更好的記憶那些有助于各類任務的世界知識。例如，要在closed book問答上取得好的表現(xiàn)，可能需要一個模型具有足夠的參數(shù)來捕獲知識庫本身(基于語言模型的壓縮要比傳統(tǒng)的壓縮器具有更高的比例)。

? 評估涌現(xiàn)能力的指標也很重要。例如，若使用精確字符串匹配作為長序列的評估指標，真實情況可能是逐步的改善，只不過評估指標導致看起來是涌現(xiàn)現(xiàn)象。類似的邏輯也可能發(fā)生在多步推理或者數(shù)學推理，模型只對多步推理的最終結(jié)果進行評分，而沒有對部分正確的解決方案進行評分。然而，最終答案準確率的跳躍式改善并不能解釋中間步驟突然高于隨機。

? 我們使用交叉熵損失函數(shù)來替代評估指標，在6個 $\text{BIG-Bench}$ 任務上雖然下游指標仍然接近隨機，但是損失函數(shù)值在小規(guī)模模型上仍然改善，這表明模型的此次改善被下游的評估指標所掩蓋。然而，該分析也并不能解釋為什么下游指標的涌現(xiàn)現(xiàn)象。總的來說，還需要更多的工作來梳理是什么使得規(guī)模能夠?qū)е陆怄i涌現(xiàn)的能力。

2. 超越規(guī)模

? 雖然某個確定的尺寸能夠觀察到涌現(xiàn)能力，但是該能力隨后在更小尺寸被實現(xiàn)。也就是說，模型的尺寸并不是解鎖涌現(xiàn)能力的唯一因素。例如， $\text{LaMDA 137B}$ 和 $\text{GPT-3 175B}$ 模型在14個 $\text{BIG-Bench}$ 任務上都是解決隨機的，但是 $\text{PaLM 62B}$ 使用更少的參數(shù)和訓練 $\text{FLOPs}$ 實現(xiàn)了高于隨機的效果。盡管還沒有實證研究來消除 $\text{PaLM 62B}$ 與先前模型的區(qū)別， $\text{PaLM}$ 表現(xiàn)更好的潛在原因可能包括高質(zhì)量的訓練數(shù)據(jù)和架構(gòu)的不同。另一個潛在的解鎖涌現(xiàn)能力的方法是通過不同的預訓練目標。

? 一旦某種涌現(xiàn)能力被發(fā)現(xiàn)，進一步的研究將使該能力在更小規(guī)模的模型上可用。在使用自然語言描述新任務來使用語言模型的新方向中，Wei et al.發(fā)現(xiàn) $\text{instruction-based finetuning}$ 僅在 $\text{68B}$ 或者更大的模型，隨后Sanh et al.在 $\text{11B}$ 的編碼器-解碼器架構(gòu)上誘導出了相似的行為。另一個例子，Ouyang et al.提出d的 $\text{InstructGPT}$ 模型基于人類反饋進行強化學習和微調(diào)，其能夠在 $\text{1.3B}$ 模型上超越大多數(shù)的模型。

? 還有一些工作嘗試改善語言模型的通用 $\text{few-shot prompting}$ 能力。對"為什么語言建模目標可以促進某些下游行為"這件事的理解和解釋性研究，反過來也會對在小規(guī)模模型上實現(xiàn)這些能力帶來影響。例如，預訓練數(shù)據(jù)的某些特征(一致性、包含稀有類型)也已經(jīng)被證明其與涌現(xiàn) $\text{few-shot prompting}$ 相關(guān)，并且可以使更小的模型具有相同的能力。計算語言學的研究進一步表明，當模型參數(shù)和訓練 $\text{FLOPs}$ 保持不變時，訓練數(shù)據(jù)的閾值頻率能夠激活語法規(guī)則學習的涌現(xiàn)能力。隨機預訓練研究的發(fā)展，降低涌現(xiàn)能力的規(guī)模閾值將會對研究這些能力越來越重要。

? 僅通過增加規(guī)模對于應用和研究來說是有限制的。例如，規(guī)模可能會受到硬件瓶頸的約束，并且某些能力在這個點上可能還沒有涌現(xiàn)。某些能力可能不會涌現(xiàn)，即使是一個非常大的訓練集，但是遠離分布的任務可能永遠不能實現(xiàn)好的效果。

3. 涌現(xiàn)風險

? $\text{few-shot prompting}$ 并沒有包含在預訓練中，但是其能夠通過涌現(xiàn)來實現(xiàn)，風險可能也會以類似的方式出現(xiàn)。大規(guī)模語言模型的社會風險，包含真實性、偏見和毒性都是一個增長的研究領(lǐng)域。這類風險需要著重考慮，無論其是否通過涌現(xiàn)能力出現(xiàn)。涌現(xiàn)能力會隨著語言模型增大而出現(xiàn)，那么隨著模型規(guī)模的增加，風險也在增加。

? 這里總結(jié)一些先前的發(fā)現(xiàn)。在 $\text{WinoGender}$ 上，隨著模型規(guī)模的增加，職業(yè)中的性別歧視被改善了。而 $\text{BIG-Bench}$ 的 $\text{BBQ}$ 偏見基準上，對于模糊的上下文，偏見會隨著規(guī)模的增加而增加。對于毒性， $\text{Askell et al.}$ 發(fā)現(xiàn)較大的語言模型能夠從 $\text{RealToxicityPrompts}$ 數(shù)據(jù)中生成更多毒性的響應，這種行為可以通過給模型一些無毒的示例來緩解。 $\text{TruthfulQA}$ 基準展示了 $\text{GPT-3}$ 模型越大就越有可能模仿人類說謊言。

4. 未來的方向

? 一些潛在的未來方向包含但不限于：

進一步擴大模型規(guī)模

目前為止，進一步擴大模型的規(guī)模是能夠增加語言模型的能力，并且也是一種未來工作的方向。然而，簡單的增加語言模型規(guī)模是計算昂貴的，并且需要解決巨大的硬件挑戰(zhàn)，因此其他方法將會在未來語言模型的涌現(xiàn)能力扮演重要的角色。
改善模型架構(gòu)和訓練

改善模型的架構(gòu)或者訓練過程可能會帶來具有涌現(xiàn)能力的高質(zhì)量模型，并減少計算量。一種方向是使用稀疏混合專家架構(gòu)，其在保持恒定輸入成本時具有更好的計算效率，使用更加局部的學習策略，而不是在神經(jīng)網(wǎng)絡(luò)的所有權(quán)重上進行反向傳播，以及使用外部存儲來增強模型。這些新興的方向已經(jīng)在許多設(shè)置中展現(xiàn)出了前景，但是仍然沒有被廣泛的使用，這需要未來的工作。
擴大數(shù)據(jù)規(guī)模

在一個足夠大的數(shù)據(jù)集上訓練足夠長的時間被證明是語言模型獲得語法、語義和其他世界知識的關(guān)鍵。近期，Hoffmann et al.認為先前的工作低估了訓練一個最優(yōu)模型的訓練數(shù)據(jù)量，低估了訓練數(shù)據(jù)的重要性。收集模型可以在其上訓練更長時間的大量數(shù)據(jù)，允許在一個固定模型尺寸的約束下有更大范圍的涌現(xiàn)能力。
$\text{prompting}$ 更好的技術(shù)和更好的理解

雖然 $\text{few-shot prompting}$ 簡單有效，對 $\text{prompting}$ 通用性的改善將進一步擴展語言模型的能力。例如，使用校準輸出概率或者噪音通道已經(jīng)改善了廣泛的任務。用帶有中間步驟的 $\text{few-shot}$ 示例增強后，能夠使模型執(zhí)行多步推理任務，這是標準 $\text{prompting}$ 無法實現(xiàn)的。此外，更好的解釋為什么 $\text{prompting}$ 有效，可能對在更小模型上引導涌現(xiàn)能力具有幫助。充分的理解模型為什么能夠工作通常會滯后于技術(shù)的開發(fā)和流行，并且隨著更加強大的模型被開發(fā)出來，prompting的最佳實踐也可能改變。
前沿任務

雖然語言模型能夠執(zhí)行廣泛的任務，但仍然有很多任務即使是最大的語言模型都無法超過隨機的準確率。 $\text{BIG-Bench}$ 中存在大量的這類任務，這些任務涉及到抽象推理(例如扮演象棋、挑戰(zhàn)數(shù)學)。未來的研究可能需要調(diào)查為什么這些能力還沒有出現(xiàn)，以及如何使得模型能夠執(zhí)行這些任務。展望未來，另一個增長的方向可能是多語言涌現(xiàn)；多語言 $\text{BIG-Bench}$ 任務表明：模型規(guī)模和訓練數(shù)據(jù)在涌現(xiàn)中扮演著重要的角色。其他的前沿任務包括多模態(tài)prompting。
理解涌現(xiàn)

除了研究如何進一步解鎖涌現(xiàn)能力，一個未來研究方向是，涌現(xiàn)能力是如何以及為什么出現(xiàn)在大語言模型。本文對 $\text{BIG-Bench}$ 上的交叉熵損失與規(guī)模的關(guān)系、生成任務的不同度量、以及哪種任務會出現(xiàn)涌現(xiàn)。這個分析并不能完整解釋為什么會出現(xiàn)涌現(xiàn)。未來的研究可能會以新的方式來分析涌現(xiàn)?？偟膩碚f，理解涌現(xiàn)是一個非常重要的方向，這有助于我們確定模型可以擁有哪些涌現(xiàn)能力以及如何訓練一個能夠更強的語義模型。文章來源地址http://www.zghlxwxcb.cn/news/detail-410049.html

到了這里，關(guān)于【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Toy模板網(wǎng)

【自然語言處理】【ChatGPT系列】大模型的涌現(xiàn)能力