前言
一篇大規(guī)模語言模型的指南,指南介紹詳細且會隨著大模型的發(fā)展不斷更新,相信初入大模型的朋友一定能有所收獲。
Abstract
本文為LLM的從業(yè)者或者其下游任務(wù)用戶提供了一個全面而實用的指南。首先對現(xiàn)有的LLM進行介紹和總結(jié),其次討論了預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的影響,最重要的是,討論了LLM在各種NLP任務(wù)下的使用條件,試圖理解數(shù)據(jù)的重要性和不同NLP任務(wù)的具體挑戰(zhàn)。定期更新的指南見https://github.com/Mooler0410/LLMsPracticalGuide。
INTRODUCTION
LLM的快速發(fā)展在各種NLP任務(wù)上表現(xiàn)了巨大的潛力,然而如何高效利用這些模型需要對它們的能力和局限性以及涉及的數(shù)據(jù)和任務(wù)有具體的了解。在某個任務(wù)場景下使用什么LLM,需要考慮到模型大小、計算需求以及特定的領(lǐng)域訓(xùn)練模型等因素。
為了分析大語言模型的能力,作者將它們和微調(diào)模型進行對比。二者的定義分別為:LLMs是在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的巨大的語言模型,不需要針對特定任務(wù)對數(shù)據(jù)進行調(diào)整,微調(diào)模型通常規(guī)模較小,會在小的特定任務(wù)數(shù)據(jù)集上進行微調(diào),優(yōu)化其在該任務(wù)上的性能。
本文總結(jié)了LLM以下主要實踐指南:
- 自然語言理解:利用LLMs在面對非分布數(shù)據(jù)或極少訓(xùn)練數(shù)據(jù)時的超常泛化能力;
- 自然語言生成:利用LLMs為各種應(yīng)用生成高質(zhì)量文本;
- 知識密集型任務(wù):對于特定領(lǐng)域知識或者通用知識,利用LLM存儲的廣泛知識;
- 推理能力:理解并利用LLMs的推理能力解決問題或改善決策。
PRACTICAL GUIDE FOR MODELS
LLM模型可以分為兩類:
- 編碼器-解碼器模型或者僅編碼器模型
- 僅解碼器語言模型
上圖展示了語言模型的演化過程,可以從中得到如下觀察:
- Decoder-Only模型已經(jīng)逐漸成為主流,encoder-Only模型逐漸淡出;
- OpenAI始終處于LLM領(lǐng)域的領(lǐng)導(dǎo)地位;
- Meta為開源LLM做出了巨大的貢獻;
- LLMs表現(xiàn)出逐漸封閉的趨勢,基于API的研究可能成為主流;
- Encoder-decoder模型仍然很有前途,但是靈活性和通用性受到限制。
下表是LLM的總結(jié)。
BERT-style Language Models: Encoder-Decoder or Encoder-only
由于自然語言現(xiàn)成可用,并且無監(jiān)督訓(xùn)練范式可以更好利用超大規(guī)模數(shù)據(jù)集,這激發(fā)了自然語言的無監(jiān)督學(xué)習(xí)。一種普遍的方法是預(yù)測句子中mask的單詞,這種訓(xùn)練范式稱為MLM,它可以讓模型更深入理解單詞之間的關(guān)系以及上下文。代表的模型有BERT、RoBERTa和T5。
GPT-style Language Models: Decoder-only
語言模型顯著提高了小樣本和零樣本的性能。最成功的的模型是自回歸語言模型,它通過給定一個單詞的序列生成下一個單詞來訓(xùn)練。這些模型已被廣泛應(yīng)用于文本生成、問答等下游任務(wù)。代表的模型有GPT-3、OPT、PALM和BLOOM。GPT-3首次使用prompt和上下文學(xué)習(xí)展示了小樣本場景的性能。
PRACTICAL GUIDE FOR DATA
數(shù)據(jù)對模型有效性的影響從預(yù)訓(xùn)練開始一直到訓(xùn)練和推理階段。
這里有三點注意的地方:
- LLMs在面對對抗樣本、域遷移等分布外數(shù)據(jù)的泛化性能要比微調(diào)模型好;
- LLMs在處理有限的注釋數(shù)據(jù)時優(yōu)于微調(diào)模型;
- 預(yù)訓(xùn)練模型最好選擇和下游任務(wù)接近的模型。
Pretraining data
預(yù)訓(xùn)練數(shù)據(jù)在LLM發(fā)展過程中舉足輕重。預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和多樣性都顯著影響LLMs的性能。預(yù)訓(xùn)練數(shù)據(jù)的重要性在于它能夠為語言模型提供對單詞知識、語法、句法和語義的豐富理解,以及識別上下文和生成連貫回復(fù)的能力。
Finetuning data
將模型用于下游任務(wù)時,要考慮三個主要場景:零樣本,小樣本,大量樣本。
**零注釋數(shù)據(jù):**使用LLM在零樣本場景被證實是最合適的方法,此外沒有參數(shù)更新過程避免災(zāi)難性遺忘。
**少注釋數(shù)據(jù):**小樣本數(shù)據(jù)和輸入的prompt直接合并作為上下文學(xué)習(xí),可以高效引導(dǎo)LLMs泛化到任務(wù)上,這種方法比元學(xué)習(xí)或者遷移學(xué)習(xí)的小模型相比性能更好,不容易過擬合。
**大量標注數(shù)據(jù):**該場景下,微調(diào)模型或使用LLMs都可以,微調(diào)的模型可以更好擬合數(shù)據(jù),這主要基于任務(wù)的類型。
總的來說,LLMs更適合通用場景,微調(diào)模型需要大規(guī)模標注數(shù)據(jù)。
Test data/user data
部署LLMs處理下游任務(wù)時,經(jīng)常面臨測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)分布差異帶來的挑戰(zhàn),如域遷移、分布外差異甚至對抗樣本,這些挑戰(zhàn)阻礙了微調(diào)模式的有效性,但是LLMs可以有很好表現(xiàn),因為沒有明確擬合過程。此外,人類反饋強化學(xué)習(xí)(RLHF)方法顯著增強了LLM的泛化能力。
PRACTICAL GUIDE FOR NLP TASKS
Traditional NLU tasks
傳統(tǒng)的NLU任務(wù)包括文本分類,命名實體識別,蘊含預(yù)測等,這些任務(wù)很多是用于大型人工智能系統(tǒng)的中間步驟。
No use case
在大多數(shù)自然語言理解任務(wù)中,如果任務(wù)包含豐富標注數(shù)據(jù),測試集數(shù)據(jù)也保持相同的分布,微調(diào)模型仍然具有很好的性能。
在文本分類任務(wù)上,LLMs很多時候不如微調(diào)過的模型。比如毒性檢測,LLMs的表現(xiàn)只比隨機選擇稍好,這可能由于毒性是由語言表達中細微差別定義的,而大模型無法僅根據(jù)提供的輸入準確理解。
在自然語言推理或者知識問答任務(wù)上,LLMs和微調(diào)模型各有千秋。
在信息檢索任務(wù)中,LLM未得到廣泛應(yīng)用,因為LLM無法將數(shù)千個候選文本轉(zhuǎn)換為LLM所需的few/zero-shot形式。
對于一些小樣本中間任務(wù)如NER,在CoNLL03數(shù)據(jù)集上微調(diào)模型的性能是LLMs性能的兩倍,但是這些中間任務(wù)可能會消失,因為LLM可以在沒有這些中間任務(wù)幫助下直接處理上級任務(wù)。
總而言之,對于大多數(shù)傳統(tǒng)NLU任務(wù),微調(diào)模型是更好的選擇。LLMs規(guī)模是微調(diào)模型的十倍甚至百倍,但是某些場景性能不如微調(diào)模型。LLMs的性能取決于prompt的設(shè)計,當(dāng)然也可以通過擴大規(guī)模來彌補差距。
Use case
仍有一些適合LLMs的NLU任務(wù)。比如雜項文本分類,用來處理各種各樣的主題和分類,這些主題和分類可能沒有明確的關(guān)系。還有對抗NLI(ANLI),LLMs表現(xiàn)出很好的性能。
Generation tasks
自然語言生成任務(wù)包含兩大類別:
- 第一類側(cè)重將輸入文本轉(zhuǎn)換為新的符號序列,如翻譯任務(wù),摘要任務(wù);
- 第二類開放式生成,旨在從頭開始生成文本匹配輸入的描述,如編寫郵件,文章等。
Use case
生成模型要求模型對輸入的內(nèi)容有全面的理解,并有一定的創(chuàng)造力。LLMs的生成結(jié)果可能不如微調(diào)后的模型,但是在連續(xù)性、相關(guān)性上表現(xiàn)更好。
LLMs特別擅長將一些低資源語言文本翻譯成英文文本,并且發(fā)現(xiàn),如果在預(yù)訓(xùn)練數(shù)據(jù)中加入更多的多語言文本,翻譯能力能進一步提升。此外LLMs在開放式生成文本方面已經(jīng)與真實場景無異,對于代碼修復(fù)也可以表現(xiàn)很好。但是如何在代碼中找到細微的錯誤是代碼方面LLM的一個挑戰(zhàn)。
No use case
在資源豐富的機器翻譯中,微調(diào)模型略優(yōu)于 LLM。在極低資源的翻譯任務(wù)中,微調(diào)模型明顯優(yōu)于LLMs。
Knowledge-intensive tasks
知識密集型NLP任務(wù)是指一類高度依賴背景知識、特定領(lǐng)域?qū)I(yè)知識的任務(wù)。
Use case
通常LLM擁有數(shù)十億訓(xùn)練tokens和參數(shù),比微調(diào)模型擁有更多真實世界知識。因此在Closed-book問答任務(wù)上和大規(guī)模多任務(wù)語言理解任務(wù)上表現(xiàn)很好,這些都高度依賴現(xiàn)實知識。
No use case
當(dāng)所需要的知識不是LLM學(xué)到的關(guān)于現(xiàn)實世界的知識時,這些任務(wù)上LLM沒有明顯優(yōu)勢,比如機器閱讀理解,重新定義符號的任務(wù),以及需要知識檢索的任務(wù),微調(diào)模型只需要很小的size就可以很好利用檢索的知識,這種任務(wù)可以理解為開卷任務(wù)。
Abilities Regarding Scaling
擴大LLMs的規(guī)??梢詷O大增強預(yù)訓(xùn)練語言模型的能力,部分指標表明模型的性能和規(guī)模成冪律關(guān)系。這里有幾點需要注意:
- 隨著模型規(guī)模指數(shù)級增長,LLM特別擅長算數(shù)推理和常識推理等推理。
- 模型涌現(xiàn)出很多其他能力,比如文字處理和邏輯能力。
- 很多情況下模型性能不會隨著擴大規(guī)模穩(wěn)定提升。
Use Case with Reasoning
推理涉及信息理解、做出推論和決定,是人類智能的重要方面?,F(xiàn)有的推理任務(wù)可以分為常識推理和算數(shù)推理。
算數(shù)推理:LLM的算數(shù)推理能力極大受益于模型的規(guī)模。對于GPT-3,當(dāng)參數(shù)數(shù)量超過13B,兩位數(shù)相加的能力才會變得明顯。在沒有外部工具幫助的情況下,LLM在執(zhí)行計算時偶爾會出錯,但是思維鏈(COT)可以顯著提高LLM的計算能力。
常識推理:常識推理不僅需要LLM記住事實知識,還需要LLM對事實進行多步驟推理。隨著模型規(guī)模的增長,常識推理的能力也在逐漸增加。
Use Cases with Emergent Abilities
大規(guī)模模型賦予模型一些前所未有的能力,稱為涌現(xiàn)能力。涌現(xiàn)能力通常是不可預(yù)測的,結(jié)果也是令人驚訝的。解決文字操作體現(xiàn)出典型的涌現(xiàn)能力,比如給定模型一個單詞的反向拼寫,輸出原始單詞。
No-Use Cases and Understanding
在某些任務(wù)上,隨著LLM的大小增加,性能開始下降,比如Redefine-math,Into the-unknown,Memo-trap等。此外LLM還會出現(xiàn)U型現(xiàn)象,即模型性能隨著模型增加先提升后降低。從某種意義上說,U型現(xiàn)象表明小尺度模型和大尺度模型以不同的內(nèi)在機制進行預(yù)測,從這個角度上分析,U型現(xiàn)象可能是由于模型的涌現(xiàn)能力導(dǎo)致的逆向轉(zhuǎn)變。涌現(xiàn)能力產(chǎn)生的原因有如下假設(shè):
- 一個任務(wù)可能有多個關(guān)鍵步驟,LLM無法處理,直到它大到足夠處理每個步驟。
- 對于逆尺度現(xiàn)象,可能是模型過度依賴先驗信息而不是prompt,把簡單的問題復(fù)雜化了。
Miscellaneous tasks
No use case
由于目標和訓(xùn)練數(shù)據(jù)的差異,LLMs難以完成某些任務(wù),比如一些回歸任務(wù),它涉及預(yù)測一個連續(xù)的值而不是離散標簽。它們表現(xiàn)不佳的主要原因是語言建模目標和回歸任務(wù)目標之間的內(nèi)在差異。
Use case
LLMs非常擅長模仿人類,充當(dāng)聊天機器人并執(zhí)行各種任務(wù)。LLMs可以充當(dāng)良好的注釋工具,也可以充當(dāng)數(shù)據(jù)生成器。LLM還可以用于某些NLG任務(wù)的質(zhì)量評估。此外,LLM的一些能力如COT可以帶來一定的可解釋性。
Real world “tasks”
模型在現(xiàn)實世界中面臨三個方面的挑戰(zhàn):
- 噪聲/非結(jié)構(gòu)化輸入: 現(xiàn)實世界的輸入數(shù)據(jù)可能包含拼寫錯誤、口語化、混合語言等問題。
- 學(xué)術(shù)界未正式定義任務(wù): 現(xiàn)實世界某些任務(wù)定義不明確,且可能同時存在多任務(wù)。
- 遵循用戶指示: 模型需要了解用戶意圖并提供符合這些意圖的輸出。
本質(zhì)上,現(xiàn)實世界中這些挑戰(zhàn)來自于用戶的請求與為特定任務(wù)設(shè)計的數(shù)據(jù)集有著不同的分布。公共NLP數(shù)據(jù)集并不能反應(yīng)模型的使用方式。
處理此類真實場景任務(wù)需要解決消歧、理解上下文并處理嘈雜的輸入。與經(jīng)過微調(diào)的模型相比,LLM在這方便做得更好。并且經(jīng)過指令微調(diào)和人工對齊調(diào)整,這些進一步提升了LLM的能力,幫助LLM更好理解和遵循用戶指令。
真實場景的一個主要問題是如何評估模型的性能,在沒有任何形式化任務(wù)或者指標情況下,模型有效性只能通過人工標注者的反饋。
OTHER CONSIDERATIONS
盡管LLM適用于很多下游任務(wù),其效率和可信度等因素也需要考慮。這里有三點需要注意:
- 如果對成本敏感或者對延遲有高要求,考慮輕量級微調(diào)模型;
- 零樣本學(xué)習(xí)不能從特定任務(wù)的數(shù)據(jù)中學(xué)習(xí)捷徑,但是LLM仍然有這個問題;
- 與LLM相關(guān)的安全問題需要重視,LLM可能輸出有害的或者有偏的輸出。
Efficiency
在實際部署中,性能、成本、延遲都是重要的考慮因素,需要平衡效率和有效性之間的關(guān)系。
Cost
模型的訓(xùn)練成本很高,訓(xùn)練一次GPT-3 175B的開銷需要460萬美元,此外電力開銷,硬件成本也是非常高昂的。用戶使用ChatGPT的API也需要一定的費用,因此,如果無法承擔(dān)一定的成本,小型模型微調(diào)是更好的選擇。
Latency
在LLM實際應(yīng)用中,延遲是一個需要考慮的關(guān)鍵因素。推理時間是衡量延遲的常用指標,它高度依賴于模型大小、架構(gòu)和token的長度。在不能接收高延遲的場景,大型LLM可能不合適。
Parameter-Efficient Tuning
參數(shù)高效微調(diào)(PET)是一種有效的技術(shù),可以凍結(jié)LLM的大部分參數(shù),只調(diào)整或添加一小部分模型參數(shù),這樣可以保持模型性能同時大大降低計算和存儲成本。
Trustworthiness
由于LLM涉及到醫(yī)療、金融、法律等領(lǐng)域,需要確保它們產(chǎn)生可靠的輸出。
Robustness and Calibration
LLMs的準確性和魯棒性有很強的相關(guān)性。如果對模型進行微調(diào),可能會導(dǎo)致嚴重的錯誤校準,同時模型也容易在zero-shot場景過擬合。因此,當(dāng)魯棒性和準確性是關(guān)鍵因素時,微調(diào)模型不是最佳選擇。人工對齊被發(fā)現(xiàn)是增強模型穩(wěn)健性的潛在方案。
Fairness and Bias
LLMs已經(jīng)被證實會表現(xiàn)出不同的待遇和影響,使社會偏見長期存在并導(dǎo)致歧視。將模型與人工指令對齊可以提升LLMs的性能。
Spurious Biases
捷徑學(xué)習(xí)問題在預(yù)訓(xùn)練和微調(diào)范式下的各種自然語言理解任務(wù)中都存在,模型高度依賴微調(diào)數(shù)據(jù)中輸入和標簽之間的虛假相關(guān)性進行預(yù)測。LLMs會在上下文學(xué)習(xí)過程中表現(xiàn)出一些捷徑,LLMs偏愛從預(yù)訓(xùn)練語料庫中普遍存在的答案。最近的研究表明可以通過選擇合適的prompt來減輕這種位置偏差。
Safety challenges
Hallucinations
LLMs可能產(chǎn)生幻覺,或產(chǎn)生荒謬不真實的內(nèi)容,在各種應(yīng)用中對信息的質(zhì)量和可靠性產(chǎn)生顯著負面影響。這會給產(chǎn)生依賴的用戶帶來虛假的信息,如果是醫(yī)療、金融等場景會產(chǎn)生嚴重的后果。因此RLHF被廣泛應(yīng)用。
Harmful content
由于LLMs生成文本的連續(xù)性、可讀性,來自LLMs的有害內(nèi)容會造成重大危害,如仇恨言論、歧視、煽動暴力等。
Privacy
LLMs可能會泄露用戶的隱私。
CONCLUSION AND FUTURE CHALLENGES
有效使用LLMs需要了解它們的能力,以及在不同應(yīng)用場景任務(wù)的局限性。本文為LLMs處理下游任務(wù)提供了實踐指導(dǎo),首先討論了LLMs的架構(gòu),接著探索LLMs在不同任務(wù)上的適用,最后對其效率和可信度進行分析。對LLMs有如下展望:文章來源:http://www.zghlxwxcb.cn/news/detail-447677.html
- 在真實數(shù)據(jù)集上對模型進行評估。
- 模型對齊。確保日益強大的模型與人類價值觀和利害保持一致。
- 安全對齊。模型的安全性是模型構(gòu)建過程中不可或缺一部分。
- 規(guī)模擴大下的性能預(yù)測??梢阅Msize對模型性能的影響。
閱讀總結(jié)
一篇非常全面對LLM介紹的文章,從數(shù)據(jù)、任務(wù)、性能、效率等角度詳細闡述了LLMs的適用場景以及未來的發(fā)展,特別適合想要對大模型領(lǐng)域有所了解的朋友閱讀。當(dāng)然大模型的發(fā)展還不到一年,大模型的應(yīng)用正如春筍般涌出,對于大模型的調(diào)教方法也是此起彼伏,如果本篇指南能夠一直更新,相信一定能夠進一步幫助未來的相關(guān)從業(yè)人員的。文章來源地址http://www.zghlxwxcb.cn/news/detail-447677.html
到了這里,關(guān)于【論文精讀】Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!