国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【譯】關(guān)于大語言模型的一些直覺

這篇具有很好參考價(jià)值的文章主要介紹了【譯】關(guān)于大語言模型的一些直覺。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

原作:jasonwei,

引言:如今,一個(gè)懸而未決的問題是,為什么大型語言模型如此有效。在這篇博文中,我將討論有關(guān)大型語言模型的六個(gè)基本直覺。其中許多直覺受到手動(dòng)檢查數(shù)據(jù)的啟發(fā),這是一項(xiàng)我發(fā)現(xiàn)有幫助且會(huì)推薦的練習(xí)。

?

語言模型經(jīng)過預(yù)訓(xùn)練,可以簡單地預(yù)測文本語料庫中的下一個(gè)單詞,并且它們由此學(xué)到了驚人的知識(shí)。讓我們看一些示例,了解它們可能從這個(gè)下一個(gè)單詞預(yù)測任務(wù)中學(xué)到什么。

?

直覺 1. 對大型自監(jiān)督數(shù)據(jù)進(jìn)行下一個(gè)單詞預(yù)測是大規(guī)模多任務(wù)學(xué)習(xí)。

盡管下一個(gè)單詞預(yù)測是一項(xiàng)極其簡單的任務(wù),但當(dāng)與海量數(shù)據(jù)集結(jié)合使用時(shí),它會(huì)迫使模型學(xué)習(xí)大量任務(wù)??紤]以下傳統(tǒng) NLP 任務(wù)示例,這些任務(wù)可以通過預(yù)測語料庫中某些文本的下一個(gè)單詞來學(xué)習(xí)。

前綴 {choice_1, choice_2} ?任務(wù)
在空閑時(shí)間,我喜歡 {跑步,香蕉} ?語法
我去動(dòng)物園看長頸鹿、獅子和{斑馬、勺子} ?詞法語義
丹麥的首都{哥本哈根、倫敦} ?世界知識(shí)
我整場都在笑,這部電影{好、壞} ?情感分析
西班牙語中“漂亮”一詞是{bonita、hola} ?翻譯
一年級(jí)算術(shù)考試:3 + 8 + 4 = {15、11} ?數(shù)學(xué)問題

上述任務(wù)明確無誤,但有點(diǎn)理想化。實(shí)際上,預(yù)測下一個(gè)單詞涉及執(zhí)行許多“奇怪”的任務(wù)??紤]以下句子:

?前綴 ?下一個(gè)單詞 [任務(wù)]
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 ?2017 年提出 [事實(shí)回憶]
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出 ?,[逗號(hào)預(yù)測]
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出, ?即 [語法]
Transformer 是一種深度學(xué)習(xí)架構(gòu),最初在 2017 年提出,即 依賴 [不可能的任務(wù)?]

當(dāng)您以這種方式查看數(shù)據(jù)時(shí),很明顯,下一個(gè)單詞預(yù)測迫使模型學(xué)習(xí)很多關(guān)于語言的知識(shí);不僅是語法和語義,還有逗號(hào)預(yù)測、事實(shí)知識(shí),甚至可能是推理等內(nèi)容。這是一個(gè)有趣的例子,說明了一個(gè)簡單的目標(biāo)如何與復(fù)雜的數(shù)據(jù)相結(jié)合,從而產(chǎn)生高度智能的行為(假設(shè)您同意語言模型是智能的)。

?

直覺 2. 學(xué)習(xí)輸入輸出關(guān)系可以轉(zhuǎn)化為下一個(gè)單詞預(yù)測。這被稱為上下文學(xué)習(xí)(情景學(xué)習(xí))。

過去幾十年的機(jī)器學(xué)習(xí)專注于學(xué)習(xí)<input, output>對之間的關(guān)系。由于下一個(gè)單詞預(yù)測非常通用,我們可以輕松地將機(jī)器學(xué)習(xí)轉(zhuǎn)化為下一個(gè)單詞預(yù)測。我們稱之為上下文學(xué)習(xí)(又稱情景學(xué)習(xí),少樣本學(xué)習(xí)或少樣本提示)。這是由 GPT-3 論文開創(chuàng)的,該論文提出了使用自然語言指令,然后是<input, output>對。這在 GPT-3 論文的以下左圖中顯示。

【譯】關(guān)于大語言模型的一些直覺

在上方圖片的右側(cè),我們可以看到,增加上下文中的示例數(shù)量可以提高 GPT-3 論文中任務(wù)的性能。這意味著該模型受益于查看這些 <input, output> 示例。

上下文學(xué)習(xí)是大語言模型的一種標(biāo)準(zhǔn)表述,很方便,因?yàn)?<input, output> 對是我們過去幾十年來進(jìn)行機(jī)器學(xué)習(xí)的方式。但是,我們繼續(xù)遵循<input, output>對并沒有第一性原理的理由。當(dāng)我們與人類交流時(shí),我們也會(huì)給他們指示、解釋并以交互方式引導(dǎo)他們。

?

直覺 3. Token 的信息密度可能非常不同,因此要給語言模型時(shí)間來思考。

一個(gè)基本的事實(shí)是,并非所有token在信息方面都是等值的。

  1. 有些token非常容易猜測,但沒有太大價(jià)值。例如,在“我是 OpenAI 的研究員 Jason Wei,從事大型語言 ___ 的工作”中,預(yù)測“模型”并不難。預(yù)測該標(biāo)記非常容易,以至于如果我省略它,也不會(huì)丟失太多信息。

  2. 有些token很難猜測;但很有價(jià)值。例如,在“Jason Wei 最喜歡的顏色是 ___”中,幾乎不可能預(yù)測。因此,該標(biāo)記包含大量新信息。

  3. 有些token也可能很難計(jì)算。例如,在“問題:((8-2)*3+4)^3/8 的平方是多少?(A)1,483,492;(B)1,395,394;(C)1,771,561;答案:()中,下一個(gè)標(biāo)記需要大量工作(計(jì)算該表達(dá)式)。

你可以想象,如果你是 ChatGPT,并且一旦你必須看到 prompt,你必須立即開始輸入,那么正確回答這個(gè)問題將非常困難。

/這有點(diǎn)類似快思考、慢思考/

解決辦法是通過允許語言模型在給出最終答案之前執(zhí)行自然語言推理,從而為語言模型提供更多計(jì)算能力。這可以通過一種稱為“思維鏈提示”的簡單技巧來完成,該技巧通過在少數(shù)鏡頭示例中提供“思維鏈”的示例(以藍(lán)色突出顯示)來鼓勵(lì)模型進(jìn)行推理。

【譯】關(guān)于大語言模型的一些直覺

?

這種技術(shù)對于提高復(fù)雜推理任務(wù)的性能非常有用,這些任務(wù)需要人類花費(fèi)一秒鐘以上的時(shí)間來解決。對于比上面所示的簡單算術(shù)問題更復(fù)雜的問題,讓語言模型先將prompt分解成子問題,然后順序解決子問題(“從最少到最多提示”)會(huì)有所幫助。這種范例非常強(qiáng)大,因?yàn)槲覀兿M斯ぶ悄茏罱K能夠解決我們?nèi)祟惷媾R的最困難的問題(例如,貧困、氣候變化等),而推理能力是解決此類問題的基礎(chǔ)。

上述下一個(gè)單詞預(yù)測任務(wù)之所以有效,關(guān)鍵原因在于擴(kuò)展(scaling),這意味著需要在更多數(shù)據(jù)上訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò)。顯然,訓(xùn)練前沿語言模型需要花費(fèi)大量資金,因此我們這樣做的原因是我們有合理的信心,使用更大的神經(jīng)網(wǎng)絡(luò)和更多數(shù)據(jù)實(shí)際上將導(dǎo)致更好的模型(即,當(dāng)您增加模型和數(shù)據(jù)時(shí),性能可能不會(huì)飽和)。

直覺 4. 擴(kuò)展語言模型(大小和數(shù)據(jù))預(yù)計(jì)將繼續(xù)改善損失。

擴(kuò)展可以提高可預(yù)測的性能這一事實(shí)被稱為“擴(kuò)展定律(scaling laws)”,下圖左側(cè)顯示,隨著計(jì)算的增加,測試損失會(huì)平穩(wěn)改善。

?

【譯】關(guān)于大語言模型的一些直覺

右圖是另一個(gè)證據(jù),說明隨著語言模型的擴(kuò)展,損失如何平穩(wěn)地得到改善——通過追蹤較小模型的損失曲線,你可以使用少至 10,000 倍的計(jì)算來預(yù)測 GPT-4 的損失。

為什么擴(kuò)展(scaling )有效是一個(gè)開放性問題,但這里有兩個(gè)似是而非的原因。一個(gè)原因是小型語言模型無法在其參數(shù)中記憶太多知識(shí),而大型語言模型可以記憶大量關(guān)于世界的事實(shí)信息。第二個(gè)猜測是,雖然小型語言模型受容量限制,但它們可能只學(xué)習(xí)數(shù)據(jù)中的一階相關(guān)性。另一方面,大型語言模型可以在數(shù)據(jù)中學(xué)習(xí)復(fù)雜的啟發(fā)式方法。

?

直覺 5. 雖然總體損失平穩(wěn)擴(kuò)展,但個(gè)別下游任務(wù)可能以新興方式擴(kuò)展(scale)。

讓我們仔細(xì)看看當(dāng)損失改善時(shí)究竟發(fā)生了什么。你可以將整體損失視為大量學(xué)習(xí)任務(wù)的加權(quán)平均值,例如,

整體損失 = 1e-10 *(語法任務(wù)的損失)+ 1e-10 * 損失(情感分析任務(wù)的損失)+ …

+ 1e-10 * (數(shù)學(xué)能力喪失任務(wù))+ …

Overall loss = 1e-10 * (loss of grammar task) + 1e-10 * loss (loss of sentiment analysis task) + …

+ 1e-10 * (loss of math ability task) + …

現(xiàn)在考慮你的損失從 4 到 3 的變化。所有任務(wù)都會(huì)得到均勻的提高嗎?可能不會(huì)。也許損失 = 4 的模型的語法已經(jīng)很完美了,因此已經(jīng)飽和,但損失 = 3 的模型的數(shù)學(xué)能力提高了很多。

事實(shí)證明,如果你查看模型在 200 個(gè)下游任務(wù)上的表現(xiàn),你會(huì)看到,雖然有些任務(wù)平穩(wěn)地提高,但其他任務(wù)根本沒有提高,還有一些任務(wù)突然提高。以下是此類任務(wù)的八個(gè)示例,其中對于小型模型,性能幾乎是隨機(jī)的,而一旦模型大小達(dá)到某個(gè)閾值,性能就會(huì)增加到遠(yuǎn)高于隨機(jī)水平。

我們用來表示由量變產(chǎn)生的質(zhì)變的術(shù)語是“涌現(xiàn)(emergence)”。更具體地說,如果一種大型語言模型的能力在較小的模型中不存在,但在較大的模型中存在,那么我們稱這種能力為涌現(xiàn)能力。在此類任務(wù)中,我們經(jīng)常看到,對于較小的模型,其性能大都是隨機(jī)的,而對于大于某個(gè)閾值大小的模型,其性能明顯高于隨機(jī),如下圖所示。

【譯】關(guān)于大語言模型的一些直覺

涌現(xiàn)具有三個(gè)重要的含義:

  1. 僅僅通過推斷較小模型的縮放曲線,無法預(yù)測涌現(xiàn)。

  2. 語言模型的訓(xùn)練者并未明確指定涌現(xiàn)能力。

  3. 由于擴(kuò)展已解鎖涌現(xiàn)能力,因此可以預(yù)期進(jìn)一步擴(kuò)展將進(jìn)一步引發(fā)更多能力。

?

直覺 6. 真正的情境學(xué)習(xí)(上下文學(xué)習(xí))會(huì)發(fā)生,但只發(fā)生在足夠大的語言模型中。

我們從 GPT-3 論文中看到,增加上下文示例的數(shù)量可以提高性能。雖然我們希望這是因?yàn)樵撃P蛯?shí)際上從其上下文中的示例中學(xué)習(xí)了<input, output>映射,但性能的提高可能是由于其他原因,例如示例告訴模型有關(guān)格式或可能的標(biāo)簽的信息。

事實(shí)上,一篇論文表明,即使您對上下文中的示例使用隨機(jī)標(biāo)簽,GPT-3 的性能也幾乎不會(huì)下降。他們認(rèn)為,性能的提高不是由于學(xué)習(xí)<input, output>映射,而是由于上下文中的示例教授了諸如格式或可能的標(biāo)簽之類的東西。

然而,與當(dāng)今最強(qiáng)大的模型相比,GPT-3 并不是一個(gè)超級(jí)“大型”語言模型。如果我們采用更極端的翻轉(zhuǎn)標(biāo)簽設(shè)置(即,正面表示負(fù)面,負(fù)面表示正面),那么我們發(fā)現(xiàn)大型語言模型強(qiáng)烈遵循翻轉(zhuǎn)標(biāo)簽,而小型語言模型根本不受性能影響。下圖顯示了這一點(diǎn),其中大型語言模型(PaLM-540B、code-davinci-002 和 text-davinci-002)的性能下降。

?【譯】關(guān)于大語言模型的一些直覺

這里的要點(diǎn)是,語言模型確實(shí)會(huì)查看<input, output>映射,但前提是語言模型足夠大。

結(jié)語

盡管以上直覺非?;A(chǔ),但我希望它們是有用的。許多直覺中都有一個(gè)共同的主題,那就是你可以通過手動(dòng)查看數(shù)據(jù)學(xué)到很多東西。我最近很喜歡這樣做,并強(qiáng)烈推薦 :)文章來源地址http://www.zghlxwxcb.cn/news/detail-843458.html

到了這里,關(guān)于【譯】關(guān)于大語言模型的一些直覺的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • C語言中關(guān)于#include的一些小知識(shí)

    C語言中關(guān)于#include的一些小知識(shí)

    寫代碼的過程中,因?yàn)槭终`,重復(fù)包含了頭文件 可以看到?jīng)]有報(bào)錯(cuò) 如果是你自己編寫的頭文件,那么如果沒加唯一包含標(biāo)識(shí)的話,那么編譯器會(huì)編譯報(bào)錯(cuò)的。如果是系統(tǒng)自帶的頭文件,由于其每個(gè)頭文件都加了特殊標(biāo)識(shí),所以即使你包含兩遍,也不會(huì)有問題。 在C語言中,如

    2024年02月21日
    瀏覽(15)
  • 直覺與預(yù)測模型:人工智能在游戲行業(yè)的影響

    隨著人工智能技術(shù)的不斷發(fā)展,游戲行業(yè)也逐漸被人工智能技術(shù)所涉及。直覺與預(yù)測模型在游戲行業(yè)中具有重要的應(yīng)用價(jià)值,它們可以幫助開發(fā)者更好地理解玩家的行為,提高游戲的吸引力,并優(yōu)化游戲體驗(yàn)。在本文中,我們將深入探討直覺與預(yù)測模型在游戲行業(yè)中的應(yīng)用,

    2024年02月21日
    瀏覽(15)
  • 大語言模型LLM的一些點(diǎn)

    GPT模型是一種自然語言處理模型,使用Transformer來預(yù)測下一個(gè)單詞的概率分布,通過訓(xùn)練在大型文本語料庫上學(xué)習(xí)到的語言模式來生成自然語言文本。 GPT-1(117億參數(shù)),GPT-1有一定的泛化能力。能夠用于和監(jiān)督任務(wù)無關(guān)的任務(wù)中。 GPT-2(15億參數(shù)),在生成方面表現(xiàn)出很大天賦,

    2024年02月13日
    瀏覽(21)
  • Datawhale 大模型基礎(chǔ)理論 Day1 引言

    開源鏈接如下:https://github.com/datawhalechina/so-large-lm/blob/main/docs/content/ch01.md 語言模型的概念:即能夠賦予每個(gè)有意義的詞(token)以一定的概率的一個(gè)函數(shù)的集合。 語言模型可以被用來評(píng)估輸入的質(zhì)量,也可以根據(jù)prompt生成對應(yīng)的內(nèi)容(作畫、描述、回答等) 溫度,可以控制

    2024年01月16日
    瀏覽(32)
  • 網(wǎng)絡(luò)安全引言(網(wǎng)絡(luò)安全概述、計(jì)算機(jī)安全、OSI安全體系、網(wǎng)絡(luò)安全模型)

    網(wǎng)絡(luò)安全引言(網(wǎng)絡(luò)安全概述、計(jì)算機(jī)安全、OSI安全體系、網(wǎng)絡(luò)安全模型)

    1.1 網(wǎng)絡(luò)中的“安全”問題 信息安全經(jīng)歷兩大變革: 從物理和管理方法 轉(zhuǎn)變成 自動(dòng)化工具保護(hù)信息安全 終端普遍使用 網(wǎng)絡(luò)傳輸數(shù)據(jù)并保證數(shù)據(jù)安全 網(wǎng)絡(luò)中的“安全”問題 監(jiān)聽 截獲 篡改 假冒 假冒網(wǎng)點(diǎn) Email截取 否認(rèn) 1.2 網(wǎng)絡(luò)安全定義 網(wǎng)絡(luò)安全是一個(gè)跨多門學(xué)科的綜合性科

    2024年02月19日
    瀏覽(24)
  • 關(guān)于語言模型私有化部署的討論 | AIGC實(shí)踐

    關(guān)于語言模型私有化部署的討論 | AIGC實(shí)踐

    上周在與TC同行關(guān)于AIGC實(shí)踐的線上交流中,大家普遍比較關(guān)心的一個(gè)實(shí)踐切入點(diǎn)是:語言模型的私有化部署——簡單來說,就是在企業(yè)內(nèi)部,部署一個(gè)屬于自己的“ChatGPT”,對于本行業(yè)/專業(yè)知識(shí),以及企業(yè)獨(dú)有的產(chǎn)品和技術(shù)信息有充分的了解,并且提供用戶接口,通過自然

    2024年02月11日
    瀏覽(90)
  • ArchGuard Co-mate:一次關(guān)于大語言模型與架構(gòu)治理、架構(gòu)設(shè)計(jì)的探索

    ArchGuard Co-mate:一次關(guān)于大語言模型與架構(gòu)治理、架構(gòu)設(shè)計(jì)的探索

    在過去的幾個(gè)月里,為了探索了 LLM 結(jié)合 SDLC、BizDevOps 的可能性,我們(Thoughtworks 開源社區(qū))創(chuàng)建了 ClickPrompt、 AutoDev、DevTi 等一系列的開源項(xiàng)目。從個(gè)人的經(jīng)驗(yàn)來看,未來越來越多的應(yīng)用將圍繞于 LLM@Core 設(shè)計(jì),所以我們挖了一個(gè)新的坑、新的試驗(yàn):ArchGuard Co-mate:https://gi

    2024年02月08日
    瀏覽(13)
  • 關(guān)于一些代碼習(xí)慣

    修改完代碼,記得自己測試一下 方法入?yún)⒈M量都檢驗(yàn) 修改老接口的時(shí)候,要先思考接口的兼容性 復(fù)雜的代碼邏輯,添加清楚的注釋 盡量不在循環(huán)里遠(yuǎn)程調(diào)用、數(shù)據(jù)庫操作,要優(yōu)先考慮批量進(jìn)行 手動(dòng)寫完業(yè)務(wù)代碼的SQL,先拿去數(shù)據(jù)庫運(yùn)行一下,同時(shí)也explain看下執(zhí)行計(jì)劃 調(diào)用

    2024年02月21日
    瀏覽(30)
  • 關(guān)于信號(hào)的一些問題

    信號(hào)在操作系統(tǒng)中是非常重要的概念之一,因此在面試中經(jīng)常會(huì)涉及到與信號(hào)相關(guān)的問題。以下是一些可能被問到的面試題: 什么是信號(hào)? 答:信號(hào)是進(jìn)程間通信的一種方式,它是一種軟件中斷機(jī)制,用于通知進(jìn)程發(fā)生了某個(gè)事件。信號(hào)可以由內(nèi)核、進(jìn)程本身或其他進(jìn)程發(fā)

    2024年02月07日
    瀏覽(17)
  • 關(guān)于推薦場景的一些思考

    由于用戶數(shù)的飆升,推薦使用的技術(shù)棧也在不斷升級(jí),以滿足更高并發(fā)和更大數(shù)據(jù)量的推薦場景。 推薦相關(guān)的原始數(shù)據(jù)從小幾十萬到幾百萬,到幾千萬,再到上億。 從全庫的用戶數(shù)據(jù)中l(wèi)oad出滿足條件的用戶,在jvm做計(jì)算,得到推薦結(jié)果。 隨著用戶數(shù)量的上升,滿足條件的用

    2023年04月09日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包