原作:jasonwei,
引言:如今,一個(gè)懸而未決的問題是,為什么大型語言模型如此有效。在這篇博文中,我將討論有關(guān)大型語言模型的六個(gè)基本直覺。其中許多直覺受到手動(dòng)檢查數(shù)據(jù)的啟發(fā),這是一項(xiàng)我發(fā)現(xiàn)有幫助且會(huì)推薦的練習(xí)。
?
語言模型經(jīng)過預(yù)訓(xùn)練,可以簡單地預(yù)測文本語料庫中的下一個(gè)單詞,并且它們由此學(xué)到了驚人的知識(shí)。讓我們看一些示例,了解它們可能從這個(gè)下一個(gè)單詞預(yù)測任務(wù)中學(xué)到什么。
?
直覺 1. 對大型自監(jiān)督數(shù)據(jù)進(jìn)行下一個(gè)單詞預(yù)測是大規(guī)模多任務(wù)學(xué)習(xí)。
盡管下一個(gè)單詞預(yù)測是一項(xiàng)極其簡單的任務(wù),但當(dāng)與海量數(shù)據(jù)集結(jié)合使用時(shí),它會(huì)迫使模型學(xué)習(xí)大量任務(wù)??紤]以下傳統(tǒng) NLP 任務(wù)示例,這些任務(wù)可以通過預(yù)測語料庫中某些文本的下一個(gè)單詞來學(xué)習(xí)。
前綴 {choice_1, choice_2} | ?任務(wù) |
---|---|
在空閑時(shí)間,我喜歡 {跑步,香蕉} | ?語法 |
我去動(dòng)物園看長頸鹿、獅子和{斑馬、勺子} | ?詞法語義 |
丹麥的首都{哥本哈根、倫敦} | ?世界知識(shí) |
我整場都在笑,這部電影{好、壞} | ?情感分析 |
西班牙語中“漂亮”一詞是{bonita、hola} | ?翻譯 |
一年級(jí)算術(shù)考試:3 + 8 + 4 = {15、11} | ?數(shù)學(xué)問題 |
上述任務(wù)明確無誤,但有點(diǎn)理想化。實(shí)際上,預(yù)測下一個(gè)單詞涉及執(zhí)行許多“奇怪”的任務(wù)??紤]以下句子:
?前綴 | ?下一個(gè)單詞 [任務(wù)] |
---|---|
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 | ?2017 年提出 [事實(shí)回憶] |
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出 | ?,[逗號(hào)預(yù)測] |
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出, | ?即 [語法] |
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出,即 | 依賴 [不可能的任務(wù)?] |
當(dāng)您以這種方式查看數(shù)據(jù)時(shí),很明顯,下一個(gè)單詞預(yù)測迫使模型學(xué)習(xí)很多關(guān)于語言的知識(shí);不僅是語法和語義,還有逗號(hào)預(yù)測、事實(shí)知識(shí),甚至可能是推理等內(nèi)容。這是一個(gè)有趣的例子,說明了一個(gè)簡單的目標(biāo)如何與復(fù)雜的數(shù)據(jù)相結(jié)合,從而產(chǎn)生高度智能的行為(假設(shè)您同意語言模型是智能的)。
?
直覺 2. 學(xué)習(xí)輸入輸出關(guān)系可以轉(zhuǎn)化為下一個(gè)單詞預(yù)測。這被稱為上下文學(xué)習(xí)(情景學(xué)習(xí))。
過去幾十年的機(jī)器學(xué)習(xí)專注于學(xué)習(xí)<input, output>對之間的關(guān)系。由于下一個(gè)單詞預(yù)測非常通用,我們可以輕松地將機(jī)器學(xué)習(xí)轉(zhuǎn)化為下一個(gè)單詞預(yù)測。我們稱之為上下文學(xué)習(xí)(又稱情景學(xué)習(xí),少樣本學(xué)習(xí)或少樣本提示)。這是由 GPT-3 論文開創(chuàng)的,該論文提出了使用自然語言指令,然后是<input, output>對。這在 GPT-3 論文的以下左圖中顯示。
在上方圖片的右側(cè),我們可以看到,增加上下文中的示例數(shù)量可以提高 GPT-3 論文中任務(wù)的性能。這意味著該模型受益于查看這些 <input, output> 示例。
上下文學(xué)習(xí)是大語言模型的一種標(biāo)準(zhǔn)表述,很方便,因?yàn)?<input, output> 對是我們過去幾十年來進(jìn)行機(jī)器學(xué)習(xí)的方式。但是,我們繼續(xù)遵循<input, output>對并沒有第一性原理的理由。當(dāng)我們與人類交流時(shí),我們也會(huì)給他們指示、解釋并以交互方式引導(dǎo)他們。
?
直覺 3. Token 的信息密度可能非常不同,因此要給語言模型時(shí)間來思考。
一個(gè)基本的事實(shí)是,并非所有token在信息方面都是等值的。
-
有些token非常容易猜測,但沒有太大價(jià)值。例如,在“我是 OpenAI 的研究員 Jason Wei,從事大型語言 ___ 的工作”中,預(yù)測“模型”并不難。預(yù)測該標(biāo)記非常容易,以至于如果我省略它,也不會(huì)丟失太多信息。
-
有些token很難猜測;但很有價(jià)值。例如,在“Jason Wei 最喜歡的顏色是 ___”中,幾乎不可能預(yù)測。因此,該標(biāo)記包含大量新信息。
-
有些token也可能很難計(jì)算。例如,在“問題:((8-2)*3+4)^3/8 的平方是多少?(A)1,483,492;(B)1,395,394;(C)1,771,561;答案:()中,下一個(gè)標(biāo)記需要大量工作(計(jì)算該表達(dá)式)。
你可以想象,如果你是 ChatGPT,并且一旦你必須看到 prompt,你必須立即開始輸入,那么正確回答這個(gè)問題將非常困難。
/這有點(diǎn)類似快思考、慢思考/
解決辦法是通過允許語言模型在給出最終答案之前執(zhí)行自然語言推理,從而為語言模型提供更多計(jì)算能力。這可以通過一種稱為“思維鏈提示”的簡單技巧來完成,該技巧通過在少數(shù)鏡頭示例中提供“思維鏈”的示例(以藍(lán)色突出顯示)來鼓勵(lì)模型進(jìn)行推理。
?
這種技術(shù)對于提高復(fù)雜推理任務(wù)的性能非常有用,這些任務(wù)需要人類花費(fèi)一秒鐘以上的時(shí)間來解決。對于比上面所示的簡單算術(shù)問題更復(fù)雜的問題,讓語言模型先將prompt分解成子問題,然后順序解決子問題(“從最少到最多提示”)會(huì)有所幫助。這種范例非常強(qiáng)大,因?yàn)槲覀兿M斯ぶ悄茏罱K能夠解決我們?nèi)祟惷媾R的最困難的問題(例如,貧困、氣候變化等),而推理能力是解決此類問題的基礎(chǔ)。
上述下一個(gè)單詞預(yù)測任務(wù)之所以有效,關(guān)鍵原因在于擴(kuò)展(scaling),這意味著需要在更多數(shù)據(jù)上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。顯然,訓(xùn)練前沿語言模型需要花費(fèi)大量資金,因此我們這樣做的原因是我們有合理的信心,使用更大的神經(jīng)網(wǎng)絡(luò)和更多數(shù)據(jù)實(shí)際上將導(dǎo)致更好的模型(即,當(dāng)您增加模型和數(shù)據(jù)時(shí),性能可能不會(huì)飽和)。
直覺 4. 擴(kuò)展語言模型(大小和數(shù)據(jù))預(yù)計(jì)將繼續(xù)改善損失。
擴(kuò)展可以提高可預(yù)測的性能這一事實(shí)被稱為“擴(kuò)展定律(scaling laws)”,下圖左側(cè)顯示,隨著計(jì)算的增加,測試損失會(huì)平穩(wěn)改善。
?
右圖是另一個(gè)證據(jù),說明隨著語言模型的擴(kuò)展,損失如何平穩(wěn)地得到改善——通過追蹤較小模型的損失曲線,你可以使用少至 10,000 倍的計(jì)算來預(yù)測 GPT-4 的損失。
為什么擴(kuò)展(scaling )有效是一個(gè)開放性問題,但這里有兩個(gè)似是而非的原因。一個(gè)原因是小型語言模型無法在其參數(shù)中記憶太多知識(shí),而大型語言模型可以記憶大量關(guān)于世界的事實(shí)信息。第二個(gè)猜測是,雖然小型語言模型受容量限制,但它們可能只學(xué)習(xí)數(shù)據(jù)中的一階相關(guān)性。另一方面,大型語言模型可以在數(shù)據(jù)中學(xué)習(xí)復(fù)雜的啟發(fā)式方法。
?
直覺 5. 雖然總體損失平穩(wěn)擴(kuò)展,但個(gè)別下游任務(wù)可能以新興方式擴(kuò)展(scale)。
讓我們仔細(xì)看看當(dāng)損失改善時(shí)究竟發(fā)生了什么。你可以將整體損失視為大量學(xué)習(xí)任務(wù)的加權(quán)平均值,例如,
整體損失 = 1e-10 *(語法任務(wù)的損失)+ 1e-10 * 損失(情感分析任務(wù)的損失)+ …
+ 1e-10 * (數(shù)學(xué)能力喪失任務(wù))+ …
Overall loss = 1e-10 * (loss of grammar task) + 1e-10 * loss (loss of sentiment analysis task) + …
+ 1e-10 * (loss of math ability task) + …
現(xiàn)在考慮你的損失從 4 到 3 的變化。所有任務(wù)都會(huì)得到均勻的提高嗎?可能不會(huì)。也許損失 = 4 的模型的語法已經(jīng)很完美了,因此已經(jīng)飽和,但損失 = 3 的模型的數(shù)學(xué)能力提高了很多。
事實(shí)證明,如果你查看模型在 200 個(gè)下游任務(wù)上的表現(xiàn),你會(huì)看到,雖然有些任務(wù)平穩(wěn)地提高,但其他任務(wù)根本沒有提高,還有一些任務(wù)突然提高。以下是此類任務(wù)的八個(gè)示例,其中對于小型模型,性能幾乎是隨機(jī)的,而一旦模型大小達(dá)到某個(gè)閾值,性能就會(huì)增加到遠(yuǎn)高于隨機(jī)水平。
我們用來表示由量變產(chǎn)生的質(zhì)變的術(shù)語是“涌現(xiàn)(emergence)”。更具體地說,如果一種大型語言模型的能力在較小的模型中不存在,但在較大的模型中存在,那么我們稱這種能力為涌現(xiàn)能力。在此類任務(wù)中,我們經(jīng)常看到,對于較小的模型,其性能大都是隨機(jī)的,而對于大于某個(gè)閾值大小的模型,其性能明顯高于隨機(jī),如下圖所示。
涌現(xiàn)具有三個(gè)重要的含義:
-
僅僅通過推斷較小模型的縮放曲線,無法預(yù)測涌現(xiàn)。
-
語言模型的訓(xùn)練者并未明確指定涌現(xiàn)能力。
-
由于擴(kuò)展已解鎖涌現(xiàn)能力,因此可以預(yù)期進(jìn)一步擴(kuò)展將進(jìn)一步引發(fā)更多能力。
?
直覺 6. 真正的情境學(xué)習(xí)(上下文學(xué)習(xí))會(huì)發(fā)生,但只發(fā)生在足夠大的語言模型中。
我們從 GPT-3 論文中看到,增加上下文示例的數(shù)量可以提高性能。雖然我們希望這是因?yàn)樵撃P蛯?shí)際上從其上下文中的示例中學(xué)習(xí)了<input, output>映射,但性能的提高可能是由于其他原因,例如示例告訴模型有關(guān)格式或可能的標(biāo)簽的信息。
事實(shí)上,一篇論文表明,即使您對上下文中的示例使用隨機(jī)標(biāo)簽,GPT-3 的性能也幾乎不會(huì)下降。他們認(rèn)為,性能的提高不是由于學(xué)習(xí)<input, output>映射,而是由于上下文中的示例教授了諸如格式或可能的標(biāo)簽之類的東西。
然而,與當(dāng)今最強(qiáng)大的模型相比,GPT-3 并不是一個(gè)超級(jí)“大型”語言模型。如果我們采用更極端的翻轉(zhuǎn)標(biāo)簽設(shè)置(即,正面表示負(fù)面,負(fù)面表示正面),那么我們發(fā)現(xiàn)大型語言模型強(qiáng)烈遵循翻轉(zhuǎn)標(biāo)簽,而小型語言模型根本不受性能影響。下圖顯示了這一點(diǎn),其中大型語言模型(PaLM-540B、code-davinci-002 和 text-davinci-002)的性能下降。
?
這里的要點(diǎn)是,語言模型確實(shí)會(huì)查看<input, output>映射,但前提是語言模型足夠大。文章來源:http://www.zghlxwxcb.cn/news/detail-843458.html
結(jié)語
盡管以上直覺非?;A(chǔ),但我希望它們是有用的。許多直覺中都有一個(gè)共同的主題,那就是你可以通過手動(dòng)查看數(shù)據(jù)學(xué)到很多東西。我最近很喜歡這樣做,并強(qiáng)烈推薦 :)文章來源地址http://www.zghlxwxcb.cn/news/detail-843458.html
到了這里,關(guān)于【譯】關(guān)于大語言模型的一些直覺的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!