OpenAI在2022年11?份發(fā)布ChatGPT,強(qiáng)?的?字對(duì)話、創(chuàng)意寫作能?,全球掀起了?
波AI浪潮。本?對(duì)ChatGPT的技術(shù)原理、厲害之處、可能的落地?向等??進(jìn)?了全?
的解析,看完后會(huì)對(duì)ChatGPT有更深?的了解。
?、前?
2022年11?30?,ChatGPT發(fā)布,5天內(nèi)涌?100W?戶。
他擁有持續(xù)的上下?對(duì)話能?,同時(shí)?持?章寫作、詩詞?成、代碼?成等能?。
如果?舊技術(shù)去理解他,我們通常會(huì)認(rèn)為他的背后是由復(fù)合Agent組合起來?撐的。
復(fù)合Agent是什么意思呢?即有若?個(gè)術(shù)業(yè)有專攻的Agent:有?個(gè)負(fù)責(zé)聊天對(duì)話的,?
個(gè)負(fù)責(zé)詩詞?成的,?個(gè)負(fù)責(zé)代碼?成的, ?個(gè)負(fù)責(zé)寫營(yíng)銷?案的等等等等。
每個(gè)Agent只擅?做??的那部分事情,?在?戶使?的過程中,系統(tǒng)會(huì)先判定?戶的意
圖是什么,應(yīng)該是哪個(gè)Agent,然后再將?戶的命令分發(fā)給對(duì)應(yīng)的agent去解決并提供答
案。
因此看起來是很厲害的機(jī)器?,背后其實(shí)是若?個(gè)術(shù)業(yè)有專攻的機(jī)器?。事實(shí)上Siri、?
愛、?度,?冰甚?包括各個(gè)平臺(tái)的客服機(jī)器?都是這種模式。這樣當(dāng)你要上線?個(gè)新能
?(例如寫古詩),你只需要新增訓(xùn)練?個(gè)Agent,然后將這個(gè)Agent接?到總控的分類
意圖器下就?。
這也是當(dāng)前時(shí)代的?個(gè)縮影,不管外??如何看待你從事的?業(yè),不管媒體是如何?次次
?云亦云地說警惕AI取代?類,你?直都知道,你在做的只是訓(xùn)練出?個(gè)術(shù)業(yè)有專攻的機(jī)
器??已,離真正的??智能?萬?千?。
但ChatGPT的能?不再是這種模式了,他所采?的模式是?語?模型+Prompting。所有
的能?通過?個(gè)模型實(shí)現(xiàn),背后只有?個(gè)什么都會(huì)的機(jī)器?(即?語?模型),并?持?
戶借助?字下達(dá)命令(即Prompting,提?/指?)。
雖然這種能?的表現(xiàn)還不算完美,但是他開啟了?條?種通向“通?型??智能”的道路,
曾經(jīng)科幻故事?的Jarvis,moss好像真的有了那么?點(diǎn)可能。?這才是7年前,我踏?這
個(gè)?業(yè)所憧憬的東?啊。
可能你對(duì)我的震撼有點(diǎn)?法理解,我接下來會(huì)講明?他的技術(shù)原理,帶你慢慢感知這項(xiàng)技
術(shù)的厲害之處。
?、ChatGPT原理
?先,我們要弄明?,NLP任務(wù)(?然語?處理,AI的?個(gè)技術(shù)領(lǐng)域,即?本類的AI任
務(wù))的核?邏輯是?個(gè)“猜概率”的游戲。
?如說,“我今天被我?板___”,經(jīng)過?量的數(shù)據(jù)訓(xùn)練后,AI預(yù)測(cè)空格出會(huì)出現(xiàn)的最?概
率的詞是“CPU了”,那么CPU就會(huì)被填到這個(gè)空格中,從?答案產(chǎn)?——“我今天被我?
板CPU了”。
雖然?常不可思議,但事實(shí)就是這樣,現(xiàn)階段所有的NLP任務(wù),都不意味著機(jī)器真正理解
這個(gè)世界,他只是在玩?字游戲,進(jìn)??次??次的概率解謎,本質(zhì)上和我們玩報(bào)紙上的
填字游戲是?個(gè)邏輯。只是我們靠知識(shí)和智慧,AI靠概率計(jì)算。
?在?前的“猜概率”游戲環(huán)境下,基于?型語?模型(LLM,Large Language Model)演
進(jìn)出了最主流的兩個(gè)?向,即Bert和GPT。
其中BERT是之前最流?的?向,?乎統(tǒng)治了所有NLP領(lǐng)域,并在?然語?理解類任務(wù)中
發(fā)揮出?(例如?本分類,情感傾向判斷等)。
?GPT?向則較為薄弱,最知名的玩家就是OpenAI了,事實(shí)上在GPT3.0發(fā)布前,GPT?
向?直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前?)。
接下來我們?cè)敿?xì)說說BERT和GPT兩者之間的差別。
BERT:雙向 預(yù)訓(xùn)練語?模型+fine-tuning(微調(diào))
GPT:?回歸 預(yù)訓(xùn)練語?模型+Prompting(指?/提?)
每個(gè)字都認(rèn)識(shí),連到?起就不認(rèn)識(shí)了是嗎哈哈。沒關(guān)系,接下來我們把這些術(shù)語逐個(gè)拆解
?遍就懂了。
1、什么是“預(yù)訓(xùn)練模型”?
我們通常認(rèn)知?的AI,是針對(duì)具體任務(wù)進(jìn)?訓(xùn)練。例如?個(gè)能分辨貓品種的Agent,需要
你提供A-緬因貓,B-豹貓這樣的數(shù)據(jù)集給他,讓它學(xué)習(xí)不同品種之間的特征差異,從?學(xué)
會(huì)分辨貓品種這項(xiàng)能?。
但?語?模型不是這樣運(yùn)作的,他是通過?個(gè)??統(tǒng)模型先來認(rèn)識(shí)這個(gè)世界。再帶著對(duì)這
個(gè)世界的認(rèn)知對(duì)具體領(lǐng)域進(jìn)?降維打擊。
在這?讓我們先從從NLP領(lǐng)域的中間任務(wù)說起。像中?分詞,詞性標(biāo)注,NER,句法分
析等NLP任務(wù)。他們本??法直接應(yīng)?,不產(chǎn)??戶價(jià)值,但這些任務(wù)?是NLP所依賴
的,所以稱之為中間任務(wù)。
在以前,這些中間任務(wù)都是NLP領(lǐng)域必不可少的。但是隨著?型語?模型的出現(xiàn),這些中
間任務(wù)事實(shí)上已經(jīng)逐步消亡。??型語?模型其實(shí)就是標(biāo)題中的“語?預(yù)訓(xùn)練模型”。
他的實(shí)現(xiàn)?式是將海量的?本語料,直接喂給模型進(jìn)?學(xué)習(xí),在這其中模型對(duì)詞性、句法
的學(xué)習(xí)?然?然會(huì)沉淀在模型的參數(shù)當(dāng)中。我們看到媒體對(duì)ChatGPT鋪天蓋地的宣傳?
總是離不開這樣?句話——在擁有3000億單詞的語料基礎(chǔ)上預(yù)訓(xùn)練出的擁有1750億參數(shù)
的模型。
這??3000億單詞就是訓(xùn)練數(shù)據(jù)。?1750億參數(shù)就是沉淀下來的AI對(duì)這個(gè)世界的理解,
其中?部分沉淀了Agent(代理、中間?)對(duì)各類語法、句法的學(xué)習(xí)(例如應(yīng)該是兩個(gè)饅
頭,?不是?個(gè)饅頭,這也是中間任務(wù)為什么消亡的原因)。?另外?部分參數(shù)參數(shù)則儲(chǔ)
存了AI對(duì)于事實(shí)的認(rèn)知(例如美國(guó)總統(tǒng)是拜登)。
也就是經(jīng)過預(yù)訓(xùn)練出?個(gè)這樣的?語?模型后,AI理解了?類對(duì)語?的使?技巧(句法、
語法、詞性等),也理解了各種事實(shí)知識(shí),甚?還懂得了代碼編程,并最終在這樣的?個(gè)
?語?模型的基礎(chǔ)上,直接降維作?于垂直領(lǐng)域的應(yīng)?(例如閑聊對(duì)話,代碼?成,?章
?成等)。
?BERT和GPT兩者都是基于?語?模型的,他們?cè)谶@?點(diǎn)上是相同的。他們的不同在于
雙向/?回歸,fine-tuning/Prompting這兩個(gè)維度,我們接下來會(huì)重點(diǎn)弄明?這四個(gè)術(shù)語。
2、猜字謎的兩種?式,BERT、GPT
BERT 和 GPT 都是基于 Transformer ?絡(luò)架構(gòu)和預(yù)訓(xùn)練語?模型的思想?提出的。
它們都可以在不同語?任務(wù)上達(dá)到最先進(jìn)的?平。BERT 和 GPT 展?了預(yù)訓(xùn)練語?模型
對(duì)于?然語?理解和?成任務(wù)的巨?潛?,在諸多任務(wù)中取得了突破性進(jìn)展。
BERT,全稱為 Bidirectional Encoder Representations from Transformers,是由 Google
AI Language 團(tuán)隊(duì)在 2018 年提出的預(yù)訓(xùn)練語?模型。它主要?于?然語?理解,具體應(yīng)
?如下:?jiǎn)柎鹣到y(tǒng)、句?相似度?較、?本分類、情感分析、命名實(shí)體識(shí)別等。BERT 的
訓(xùn)練過程分為預(yù)訓(xùn)練和微調(diào)兩部分。預(yù)訓(xùn)練是 BERT 模型的基礎(chǔ)部分,它包括使??量
的?本來訓(xùn)練語?模型。微調(diào)過程是在預(yù)訓(xùn)練模型的基礎(chǔ)上,使?更?的標(biāo)記數(shù)據(jù)來調(diào)整
模型參數(shù)。
BERT是“雙向”預(yù)訓(xùn)練法,是指這個(gè)模型在“猜概率的時(shí)候”,他是兩個(gè)?向的信息利?起
來同時(shí)猜測(cè)。例如“我__20號(hào)回家”,他在預(yù)測(cè)的時(shí)候,是同時(shí)利?“我”+“20號(hào)回家”兩端的
信息來預(yù)測(cè)空格中的詞可能為“打算”。有點(diǎn)像我們做英?的完形填空,通常都是結(jié)合空格
兩端的信息來猜測(cè)空格內(nèi)應(yīng)該是哪個(gè)單詞。
GPT(Generative Pre-trained Transformer)則是由 OpenAI 研究團(tuán)隊(duì)在 2018 年提出的
?種語?模型。它能夠完成各種?然語?處理任務(wù),在?本?成??表現(xiàn)尤為優(yōu)秀,可以
?成各種類型的?本,如?章、詩歌、對(duì)話等。其主要具體應(yīng)?如下:?本?成、?本?
動(dòng)完成、語?翻譯、對(duì)話?成、摘要?成等。
?GPT使?的是“?回歸”預(yù)訓(xùn)練法,就是猜概率的時(shí)候從左往右做預(yù)測(cè),不會(huì)利??本中
右側(cè)的內(nèi)容,和BERT相反。這就有點(diǎn)像我們寫作?的時(shí)候,我們肯定是?邊寫?邊想。
BERT 和 GPT 的主要區(qū)別在于它們所采?的預(yù)訓(xùn)練?法不同。BERT 是使?雙向的預(yù)訓(xùn)
練?法,即同時(shí)預(yù)測(cè)?本中的上下?信息,? GPT 是使?單向的?回歸預(yù)訓(xùn)練?法,即
從前到后?成下?個(gè)單詞或句?。這意味著 BERT 可以更好地處理需要理解整個(gè)句?或
段落的任務(wù),? GPT 則更適合?成下?個(gè)單詞或句?,兩者基本理念的區(qū)別導(dǎo)致BERT
在之前更擅??然語?理解類任務(wù),?GPT更擅??然語??成類任務(wù)(例如聊天、寫
作?)?!⒁?,我說的是之前,后?的章節(jié)我會(huì)介紹現(xiàn)在的情況發(fā)?了什么變化。
BERT和GPT各?優(yōu)缺點(diǎn):
BERT優(yōu)點(diǎn):性能優(yōu)越,?泛應(yīng)?于NLP下游任務(wù)。缺點(diǎn):?法直接?成??本。
GPT優(yōu)點(diǎn):語??成和理解能?強(qiáng),可?成?連貫?本。缺點(diǎn):性能不及BERT,表現(xiàn)不太穩(wěn)
定。
BER Trepresents語義信息更加豐富,是?前最優(yōu)秀的語?表?模型。但?成能?受限。
GPT?成效果更?然,語義和語法更加連貫,但對(duì)語義理解仍略顯不?,對(duì) DOMAIN 敏感度
?。
BERT和GPT各有優(yōu)缺點(diǎn),實(shí)際應(yīng)?中通常會(huì)根據(jù)具體任務(wù)選擇使?BERT還是GPT,亦或是
將?者結(jié)合,發(fā)揮各?的優(yōu)勢(shì),達(dá)到最佳效果。
3、微調(diào) vs 提?(咒語)
假設(shè)現(xiàn)在預(yù)訓(xùn)練好的?模型要針對(duì)具體領(lǐng)域?作了,他被安排成為?名鑒?師,要分辨?
章到底有沒有在搞??。那么BERT和GPT的區(qū)別在哪?呢?
BERT:fine-tuning(微調(diào))。微調(diào)是指模型要做某個(gè)專業(yè)領(lǐng)域任務(wù)時(shí),需要收集相關(guān)的
專業(yè)領(lǐng)域數(shù)據(jù),做模型的?幅調(diào)整,更新相關(guān)參數(shù)。
例如,我收集??堆標(biāo)注數(shù)據(jù),A-是??,B-沒有搞??,然后喂給模型進(jìn)?訓(xùn)練,調(diào)整
他的參數(shù)。經(jīng)過?段時(shí)間的針對(duì)性學(xué)習(xí)后,模型對(duì)于分辨你們是否搞??的能?更出?
了。這就是fine-tuning,?次學(xué)習(xí)微調(diào)。
GPT:Prompting。prompt是指當(dāng)模型要做某個(gè)專業(yè)領(lǐng)域的任務(wù)時(shí),我提供給他?些?
例、或者引導(dǎo)。但不?更新模型參數(shù),AI只是看看。
例如,我提供給AI模型10張??圖?,告訴他這些是搞??的。模型看?下,效果就提
升了。?家可能會(huì)說,這不就是fine-tuning嗎?不是?樣要額外給?些標(biāo)注數(shù)據(jù)嗎?
兩者最?的區(qū)別就是:這種模式下,模型的參數(shù)不會(huì)做任何變化升級(jí),這些數(shù)據(jù)就好像僅
僅是給AI看了?眼——嘿,兄弟,參考下這個(gè),但是別往??去。
不可思議吧,但他成功了!?更令?瘋狂的是,到?前為?,關(guān)于prompt明明沒有對(duì)參
數(shù)產(chǎn)?任何影響,但確實(shí)?明顯提升了任務(wù)的效果,還是?個(gè)未解之謎。暫時(shí)???家就
像程序員對(duì)待bug?樣——I don’t know why , but it work lol.
這種Prompt其實(shí)就是ICT(in-Context Learning),或者你也可以稱為Few shot
Promot,???話說就是“給你?點(diǎn)?提?”。
同時(shí)還有另外?種Promot,稱之為Zero shot Promot。ChatGPT就是Zero shot promot模
式,?前?般稱之為instruct了。
這種模式下?戶直接??類的語?下達(dá)命令,例如“給我寫?詩”,“給我做個(gè)請(qǐng)教條”,但
是你可以在命令的過程中??些?類語?增強(qiáng)AI的效果,例如“在輸出答案之前,你先每
?步都想?想”。就只是增加這樣?句話,AI的答案效果就會(huì)明顯提升。
你可能會(huì)問這是什么魔法咒語?!
有?個(gè)?較靠譜的猜測(cè)是這句話可能讓AI回想起了學(xué)習(xí)的資料中那些推理知識(shí)好像前?都
會(huì)有這句話。
然后這?切莫名激活起了他死去的記憶,不?覺開始仿造那些嚴(yán)密的推理過程中?步步推
導(dǎo)。?這些推導(dǎo)會(huì)將?個(gè)復(fù)雜問題分解成若??問題,AI因?yàn)閷?duì)這些?問題的推導(dǎo),從?
導(dǎo)致最終答案效果提升。
綜上對(duì)?下來,你會(huì)發(fā)現(xiàn)好像GPT這種模式?起B(yǎng)ERT模式更符合我們對(duì)??智能的想
象:通過海量的知識(shí)成?起來,然后經(jīng)過稍微引導(dǎo)(Prompt),他就能具備不同領(lǐng)域的
強(qiáng)?能?。文章來源:http://www.zghlxwxcb.cn/news/detail-681674.html
最后總結(jié)?下,ChatGPT背后的GPT模型是什么?
在?個(gè)超?語料基礎(chǔ)上預(yù)訓(xùn)練出的?語?模型(LLM),采?從左到右進(jìn)?填字概率預(yù)
測(cè)的?回歸語?模型,并基于prompting(提?)來適應(yīng)不同領(lǐng)域的任務(wù)。
如果只基于上?的描述,你可能?概弄懂了他背后的原理,但是對(duì)于為什么他這么?逼,
你仍然?法理解。沒關(guān)系,我們接著進(jìn)?第4節(jié)文章來源地址http://www.zghlxwxcb.cn/news/detail-681674.html
到了這里,關(guān)于ChatGPT?門到精通(3):ChatGPT 原理的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!