原作:史蒂夫·紐曼
引子:它是一只隨機(jī)鸚鵡,但大多數(shù)時(shí)候你也是如此,而且它記住的東西比你多得多
? ? ? ?關(guān)于ChatGPT已經(jīng)有無數(shù)的筆墨了。然而,大部分關(guān)注點(diǎn)要么是非常短期和戰(zhàn)術(shù)性的(“從 ChatGPT 獲得出色營(yíng)銷文案的八個(gè)魔法提示”),要么是非常長(zhǎng)期和理論性的。我將重點(diǎn)關(guān)注中間立場(chǎng),超越我們今天的水平,但缺乏未來超級(jí)智能人工智能可能帶我們?nèi)ネ睦碚摌O限。從很多方面來說,中間立場(chǎng)是最難預(yù)測(cè)的,但這也是它有趣的地方。為了了解人工智能的前景和威脅,并就如何做好準(zhǔn)備做出明智的決定,我認(rèn)為探索這個(gè)中期未來領(lǐng)域非常重要。
? ? ? ?也就是說,預(yù)測(cè)未來有助于了解現(xiàn)在。 截至 2023 年 4 月,公眾可以使用的最先進(jìn)的人工智能系統(tǒng)是 OpenAI 最近發(fā)布的 LLM GPT-4。 關(guān)于這個(gè)模型到底有多“智能”,存在很多令人困惑和相互矛盾的討論。 在這篇文章中,我提出了一個(gè)心理模型,可用于理解 GPT-4 的優(yōu)點(diǎn)和缺點(diǎn),從而可能為我們接下來的預(yù)期提供一些啟示。
? ? ? ? 綜上所述,我認(rèn)為GPT-4距離成為通用人類水平的智能還有很長(zhǎng)的路要走。我們被愚弄了,高估了它的能力,因?yàn)樗軌蚶贸怂鶎W(xué)的事實(shí)和模式的巨大存儲(chǔ)庫(kù);其輸出經(jīng)過高度拋光;我們今天與它互動(dòng)的方式(例如通過 ChatGPT)引導(dǎo)我們解決各種通用的、淺薄的問題,這些優(yōu)點(diǎn)往往掩蓋了它在推理能力方面的弱點(diǎn)。與此同時(shí),GPT-4 實(shí)際上非常有能力執(zhí)行各種真正有用的任務(wù)。 GPT-4 的大部分輸出在智力上都是淺薄的,但許多現(xiàn)實(shí)世界的任務(wù)也是淺薄的。
? ? ? ?值得重申的是,沒有人真正理解 GPT-4和其他當(dāng)前的生成式人工智能系統(tǒng)是如何工作的。簡(jiǎn)短的解釋表明我們完全沒有理解他們。你讀到的關(guān)于這個(gè)主題的任何內(nèi)容,無論是誰寫的,都必然過于簡(jiǎn)單化。整個(gè)領(lǐng)域正在以驚人的速度發(fā)展,所以你讀到的任何東西都可能很快就會(huì)過時(shí)。
GPT-4 非常聰明,但又相當(dāng)愚蠢
GPT-4 有多智能?目前,互聯(lián)網(wǎng)上充斥著令人印象深刻和極其不起眼的行為的例子。令人印象深刻的一面是,OpenAI 報(bào)告稱,GPT-4 在藝術(shù)史、生物學(xué)、環(huán)境科學(xué)、宏觀經(jīng)濟(jì)學(xué)、微觀經(jīng)濟(jì)學(xué)、心理學(xué)、統(tǒng)計(jì)學(xué)、美國(guó)政府和美國(guó)歷史等 AP 考試中獲得了 5 分,這是可能的最高分。其余六門考試中有四門通過了 4 分,其中包括 BC 微積分。令人印象深刻的一面是,我只花了幾次嘗試就想出了一個(gè)簡(jiǎn)單的數(shù)學(xué)問題,但它完全沒有問題:
[Prompt] 選三個(gè)數(shù)字。將數(shù)字連接在一起。選擇原始的三個(gè)數(shù)字,使結(jié)果成為素?cái)?shù)(第一次嘗試時(shí))。
GPT:我將選擇數(shù)字 2、3 和 7。當(dāng)它們連接在一起時(shí),形成數(shù)字 237。這是一個(gè)素?cái)?shù),因?yàn)樗荒鼙怀?1 和它本身之外的任何其他數(shù)字整除。
不幸的是,237 不是素?cái)?shù)。對(duì)于任何學(xué)過微積分的學(xué)生來說,這應(yīng)該是一個(gè)簡(jiǎn)單的問題,但 GPT-4 總是出錯(cuò)。像 GPT-4 這樣的語言模型一次生成一個(gè)單詞,這讓我懷疑它們?cè)谔幚硇枰崆耙?guī)劃的任務(wù)時(shí)會(huì)遇到麻煩;我故意設(shè)計(jì)這個(gè)問題,要求提前思考。正如我稍后將更詳細(xì)地解釋的那樣,這有助于解釋為什么一個(gè)足夠聰明、能夠通過微積分 BC 的聊天機(jī)器人無法想出三位數(shù)的素?cái)?shù)。
GPT-4 以前都有
注意:在人工智能和人類的“思維過程”之間進(jìn)行類比是危險(xiǎn)的,但無論如何我都會(huì)這樣做,因?yàn)槿祟愃季S是我們必須借鑒的唯一經(jīng)驗(yàn)基礎(chǔ)。另外,承認(rèn)這一點(diǎn):您也從人類的角度來看待 ChatGPT。
GPT-4 經(jīng)過大量文本的訓(xùn)練。它內(nèi)化的信息比人類多得多。這不僅包括簡(jiǎn)單的事實(shí),還包括模式和關(guān)系,從簡(jiǎn)化代數(shù)表達(dá)式的過程到“冷笑話”的典型結(jié)構(gòu)。
我相信,即使 GPT-4 響應(yīng)新的提示,它也會(huì)嚴(yán)重依賴訓(xùn)練數(shù)據(jù)中的示例。即使它從未見過確切的問題,它也可能見過許多類似的例子,并且它已經(jīng)了解了典型答案的結(jié)構(gòu)。因此,它不需要“思考”如何應(yīng)對(duì);它能夠直接進(jìn)入并開始無意識(shí)地吐出單詞,就像你可能不假思索地回答一個(gè)常規(guī)問題一樣。
GPT-4 學(xué)到的模式并不是嚴(yán)格的模板。它能夠靈活地同時(shí)疊加多個(gè)模式,將它們壓縮在一起形成一個(gè)響應(yīng)。這就是為什么它能夠回答以前從未見過的問題,只要它的訓(xùn)練數(shù)據(jù)包含適當(dāng)?shù)某煞纸M合。例如:
[Prompt] 請(qǐng)編出10個(gè)以蝴蝶為主題的冷笑話。
GPT:
- 為什么蝴蝶沒有讀完大學(xué)?它簡(jiǎn)直無法停止飛翔!
- 你認(rèn)為蝴蝶最喜歡的游戲是什么?撲球!
- 蝴蝶為何成為偵探?因?yàn)樗胪ㄟ^翅膀和祈禱來解開謎團(tuán)!
- 蝴蝶為什么要去接受治療?在毛毛蟲時(shí)代之后,它正在經(jīng)歷一些身份危機(jī)!
- 愛講笑話的蝴蝶叫什么?喜劇演員——飛!
- 為什么蝴蝶不喜歡快餐?他們更喜歡慢慢來,品嘗花蜜!
- 蝴蝶最喜歡什么類型的衣服?當(dāng)然是翼袖襯衫!
- 當(dāng)蝴蝶與門鈴交叉時(shí),你會(huì)得到什么?一陣“翅膀”般的撲騰!
- 為什么蝴蝶會(huì)成為糟糕的棒球運(yùn)動(dòng)員?它們似乎除了花粉什么也捕捉不到!
- 蝴蝶最喜歡的舞蹈是什么?狐步舞!
每個(gè)笑話都以一個(gè)非常標(biāo)準(zhǔn)的模板開始;在此過程中,GPT 插入了一些與蝴蝶相關(guān)的單詞或事實(shí)。模板應(yīng)用并不嚴(yán)格,句子結(jié)構(gòu)有一定的變化。這與 LLMs 操作的基本原理一致,一次生成一個(gè)單詞,估計(jì)每個(gè)可能的單詞是下一個(gè)要使用的正確單詞的概率。將多種信息來源(“冷笑話的常見結(jié)構(gòu)”、“有關(guān)蝴蝶的事實(shí)”)納入概率中是很自然的。
同樣的原則適用于更復(fù)雜的任務(wù),例如寫論文。 GPT-4 已經(jīng)看過無數(shù)風(fēng)格和主題各異的論文,并且大概已經(jīng)識(shí)別出了論文結(jié)構(gòu)方式的模式庫(kù)。它還觀察了諸如“說明性段落”或“過渡句”等子組件的模式。它不僅“知道”標(biāo)準(zhǔn)文章的結(jié)構(gòu),還知道有關(guān)提示的特定主題領(lǐng)域的句子、段落和完整文章的一些常見結(jié)構(gòu),并且能夠順利地將這些結(jié)構(gòu)組合起來以創(chuàng)建(通常)連貫的文章所有的。
(當(dāng)然,它實(shí)際上正在做一些難以形容的事情,涉及在巨型矩陣中編碼的復(fù)雜神經(jīng)結(jié)構(gòu),其最終效果無疑比“應(yīng)用模式庫(kù)”更加模糊和復(fù)雜。我只是提出一個(gè)粗略的心理模型,我相信這對(duì)于幫助我們預(yù)測(cè) GPT-4 的行為有一定的價(jià)值。)
為什么這很重要?好吧,如果這個(gè)模型是有效的,那么當(dāng) GPT-4 執(zhí)行一項(xiàng)它沒有記住任何有用模式的任務(wù)時(shí),它就會(huì)陷入困境。我相信這正是我們?cè)趯?shí)踐中看到的。
過河謎題
為了探索 GPT-4 對(duì)已知模式的依賴,我給了它這個(gè)經(jīng)典的邏輯難題:
[Prompt] 這是一個(gè)邏輯謎題。我需要帶著一棵卷心菜、一只山羊和一只狼過河。我在船上一次只能攜帶一件物品。我不能讓山羊和白菜單獨(dú)相處,我也不能讓狼和山羊單獨(dú)相處。我怎樣才能得到河對(duì)岸的一切?
這個(gè)難題無疑在其訓(xùn)練數(shù)據(jù)中出現(xiàn)了很多次,GPT-4 解決了它。然而,通過一些刺激,我們可以看到它嚴(yán)重依賴于記憶的解決方案。借鑒我前幾天看到的一個(gè)想法,我調(diào)整了謎題,使卷心菜而不是山羊成為關(guān)鍵項(xiàng)目:
[Prompt] 這是一個(gè)邏輯謎題。我需要帶著一棵卷心菜、一只山羊和一只狼過河。我在船上一次只能攜帶一件物品。我不能讓山羊和白菜單獨(dú)相處,我也不能讓白菜和狼單獨(dú)相處。我怎樣才能得到河對(duì)岸的一切?
GPT-4 給出了與經(jīng)典謎題相同的答案,首先帶山羊過河。這是不正確的,因?yàn)樗尵硇牟伺c狼單獨(dú)相處,這違反了該變體的規(guī)則。在修改后的謎題中,你需要先拿走卷心菜。
然后我進(jìn)行了長(zhǎng)時(shí)間的反復(fù)討論,試圖幫助 GPT-4 找出修改后的難題的正確解決方案。它會(huì)立即承認(rèn)回答錯(cuò)誤,然后再試一次,每次都給出相同的無效答案。這段摘錄顯示了其誤解的深度:
[Prompt] 根據(jù)這個(gè)分析,你認(rèn)為第1步中應(yīng)該帶哪件物品過河? [試圖讓它突破標(biāo)準(zhǔn)反應(yīng)并從第一原理評(píng)估謎題]
GPT:對(duì)于之前造成的混亂,我深表歉意。重新評(píng)估問題后,我建議采取以下步驟:
? ? ? ? ? 先把山羊帶到河的對(duì)岸,然后把它留在那里。
? ? ? ? ? 回到原來的一面。
? ? ? ? ? 按照這些初始步驟,我們可以繼續(xù)執(zhí)行正確的步驟來解決前面概述的難題。第一個(gè)過河的物品仍然應(yīng)該是山羊。
[Prompt] 如果我們從山羊開始,狼和白菜在哪里? [試圖讓它看到先拿山羊是錯(cuò)誤的]
GPT:如果你先帶山羊過河,狼和卷心菜就會(huì)留在原來的河邊。山羊在另一邊,您現(xiàn)在準(zhǔn)備好繼續(xù)拼圖的后續(xù)步驟。
[Prompt] 按照謎題規(guī)則,我們把狼和白菜留在原來的河邊可以嗎?
GPT:是的,這種情況下把狼和白菜留在原來的河邊是可以的。謎題規(guī)則規(guī)定,你不能把山羊和卷心菜單獨(dú)留下,也不能把狼和卷心菜單獨(dú)留下。將狼和白菜放在一起沒有任何限制,因?yàn)槔遣粫?huì)對(duì)白菜構(gòu)成威脅。 [注意,這里自相矛盾。]
[Prompt]但規(guī)則明確規(guī)定“我不能把白菜和狼單獨(dú)相處”。
GPT:你是對(duì)的,對(duì)于我之前的回復(fù)造成的混亂,我深表歉意。規(guī)則規(guī)定,你不能讓山羊單獨(dú)和卷心菜在一起,也不能讓卷心菜單獨(dú)和狼在一起。
? ? ? ? ?考慮到謎題的限制,仍然可以通過以下步驟來解決:
? ? ? ? ?把山羊帶到河的對(duì)岸,然后把它留在那里。
? ? ? ? ? ......
?
即使經(jīng)過這么多的刺激,它仍然想先拿走山羊。
我特別震驚的是這樣的說法:“狼和白菜在一起沒有任何限制,因?yàn)槔遣粫?huì)對(duì)白菜構(gòu)成威脅?!彼谥赋觥澳悴荒茏尷仟?dú)自一人吃卷心菜”后立即說了這句話。所有這些都與 GPT-4 嚴(yán)重依賴學(xué)習(xí)模式的想法是一致的。這個(gè)謎題在其訓(xùn)練數(shù)據(jù)中肯定出現(xiàn)過很多次,GPT-4 大概已經(jīng)牢牢地“記住”了這個(gè)答案。如此強(qiáng)烈,以至于當(dāng)它看到一個(gè)相關(guān)的謎題時(shí),它無法闡明不同的解決方案;所記憶溶液的引力太強(qiáng)。
這個(gè)例子給我的印象是強(qiáng)有力的證據(jù),表明無論其中發(fā)生了什么,它與我們所認(rèn)為的“推理”不太相似。在這次對(duì)話的某個(gè)時(shí)刻,人們會(huì)注意到他們很困惑。即使他們未能針對(duì)修改后的謎題提出正確的解決方案,他們至少也會(huì)意識(shí)到出了問題。 GPT-4 從未真正切換到“我很困惑,讓我更仔細(xì)地思考一下”模式,它只是不斷努力前進(jìn)。據(jù)猜測(cè),它的訓(xùn)練數(shù)據(jù)并不包含很多人們從有缺陷的推理中挖掘自己的例子,因此 GPT-4 沒有強(qiáng)大的模式來解決這一問題。
我嘗試給 GPT-4 更強(qiáng)有力的推動(dòng),看看它是否能推理出修改后的謎題中正確的第一步:”
[Prompt] 這些解決方案中的每一個(gè)都首先將山羊帶到河的另一邊。正如我們所看到的,不允許從山羊開始,因?yàn)檫@樣就只剩下卷心菜和狼了。在經(jīng)典謎題中,從山羊開始是正確的,但這不是經(jīng)典謎題。在這個(gè)難題的條件下,應(yīng)該首先傳輸哪個(gè)對(duì)象,以便不違反任何約束?
GPT:對(duì)于我之前的回復(fù)中的混亂表示歉意。我誤解了這個(gè)特定謎題的限制。根據(jù)您提供的規(guī)則,這是解決該難題的另一種方法:
? ? ? ? ?先把狼帶到河對(duì)岸,然后把它留在那里。
? ? ? ? ?......
被迫放棄從山羊開始的想法后,GPT-4 還有兩個(gè)選擇,但它選擇了錯(cuò)誤的一個(gè)(狼)。請(qǐng)注意,它沒有做出任何明顯的推理嘗試,它只是使用每次使用的完全相同的解決方案模板來進(jìn)行;我設(shè)法讓它不先運(yùn)輸山羊,但我沒能成功地讓它認(rèn)真地參與這個(gè)謎題。
對(duì)于最后一個(gè)數(shù)據(jù)點(diǎn),我開始了一次新的聊天會(huì)話,并使用這三個(gè)項(xiàng)目的虛構(gòu)單詞重述了這個(gè)難題——“我需要攜帶一個(gè) bleem、一個(gè) flem 和一個(gè) gleem 過河”。這一次,擺脫了“山羊”這個(gè)詞的引力,它能夠?qū)⒁阎鸢傅哪J接成涞轿业膯栴}中的單詞,并完美地回答。
過度思考
當(dāng)你問 GPT-4 一個(gè)無法一步回答的問題時(shí),它會(huì)顯示它的工作。?
[Prompt] “阿富汗”的字母數(shù)、十二生肖的星座數(shù)、以及在月球表面行走過的人數(shù)之和是多少?
GPT:讓我們把問題分成三個(gè)部分:
? ? ? ?“阿富汗”的字母數(shù)量:“阿富汗”有11個(gè)字母。
? ? ? ? ?十二生肖的數(shù)量:十二生肖。
? ? ? ? ?在月球表面行走的人數(shù):截至 2021 年 9 月,據(jù)我所知,阿波羅任務(wù)期間已有 12 名宇航員在月球上行走。
? ? ? ? ?現(xiàn)在,我們將這些數(shù)字相加:
? ? ? ? 11(“阿富汗”中的字母)+ 12(十二生肖)+ 12(月球行者)= 35。
? ? ? ? ?所以總和是 35。
GPT-4 在這里展示了一系列解決問題的技巧。它將問題分解為更簡(jiǎn)單的部分;分別解決每個(gè)子問題;然后結(jié)合這些結(jié)果來回答原來的問題。
我相信所有這些都與 GPT-4 嚴(yán)重依賴于應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的模式的假設(shè)是一致的。人們會(huì)看到很多將問題分解為子問題的例子。我的實(shí)際問題很新穎,但問題的結(jié)構(gòu)非常簡(jiǎn)單,并且很容易將整個(gè)問題和每個(gè)子問題映射到訓(xùn)練數(shù)據(jù)中出現(xiàn)的模式。
換句話說,我建議雖然此響應(yīng)似乎顯示了 GPT-4 對(duì)問題的推理,但它實(shí)際上只是重復(fù)以前學(xué)習(xí)過的解決方案模板。 這或多或少是當(dāng)前LLMs的“隨機(jī)鸚鵡”觀點(diǎn):他們并沒有真正“思考”,他們只是盲目地重復(fù)從訓(xùn)練數(shù)據(jù)中學(xué)到的東西。
這就引出了一個(gè)問題,“真正思考”和“人云亦云”有什么區(qū)別?我并不認(rèn)為有根本的區(qū)別!當(dāng)我思考一個(gè)棘手的問題時(shí),我絕對(duì)依賴于我之前學(xué)到的模式,例如“將問題分解為子問題”。然而,GPT-4 目前的做法存在一些真正的限制,我將在下一節(jié)中探討這些限制。
在我們開始之前,我想強(qiáng)調(diào)一下,在上面的示例中,GPT-4 非常明確地使用聊天記錄來管理其解決子問題的進(jìn)度。在每一步中,它都會(huì)重述信息,從而將該信息復(fù)制到記錄的末尾,在那里它“方便”。因此,移動(dòng)信息的任務(wù)與解決各個(gè)子問題的任務(wù)是分開的。我想知道 GPT-4 是如何實(shí)現(xiàn)這種“過度思考”的風(fēng)格:它在訓(xùn)練數(shù)據(jù)中是否突出(例如在教育材料中),或者它是否在訓(xùn)練過程中以某種方式出現(xiàn),也許是強(qiáng)化學(xué)習(xí)的一部分,其中 GPT- 4 因給出正確答案而獲得“獎(jiǎng)勵(lì)”?眾所周知,當(dāng)明確指示“一步一步推理”時(shí),規(guī)模較大的LLMs會(huì)做得更好;也許 OpenAI 故意將這種趨勢(shì)融入到 GPT-4 中,或者“一步一步推理”可能是連接到 ChatGPT 界面的內(nèi)部提示的一部分。
無論如何,我的觀點(diǎn)是 GPT-4 需要這種冗長(zhǎng)的風(fēng)格來解決重要的問題。作為證據(jù),我在新的聊天會(huì)話中再次向它提出了同樣的問題,但這次我添加了一句話,禁止它過度思考:
[Prompt] “阿富汗”的字母數(shù)、十二生肖的星座數(shù)、以及在月球表面行走過的人數(shù)之和是多少?請(qǐng)用一個(gè)數(shù)字回答;不要解釋你的步驟或展示你的中間工作。
GPT:55
當(dāng)不允許過度思考時(shí),GPT-4 得到了錯(cuò)誤的答案。 (我重新生成了幾次響應(yīng);隨后的答案是 43 和 63,也是錯(cuò)誤的。)具有適當(dāng)知識(shí)的人可能會(huì)在頭腦中回答這個(gè)問題,但 GPT-4 不能。這不是批評(píng)!這只是證明在LLMs中,思路是一個(gè)外部組件。
對(duì)于更簡(jiǎn)單的問題,例如“法國(guó)的首都是什么?”,GPT-4 可以用一個(gè)詞正確回答。默認(rèn)情況下,它會(huì)提供更冗長(zhǎng)的響應(yīng),但如果指示用一個(gè)詞回答,它會(huì)給出“巴黎”。
這是一種看待它的方式:在當(dāng)前 LLMs 使用的“transformer”架構(gòu)中,模型只能對(duì)每個(gè)單詞進(jìn)行固定量的計(jì)算。當(dāng)需要更多計(jì)算時(shí),模型可以通過用額外的單詞填充輸出來給自己留出空間。但我認(rèn)為想象 LLM 正在過度思考也是一種合理的直覺。
GPT-4 不能提前計(jì)劃
這又是 GPT-4 失敗的簡(jiǎn)單素?cái)?shù)挑戰(zhàn):
[Prompt] 選擇三個(gè)數(shù)字。將數(shù)字連接在一起。選擇原始的三個(gè)數(shù)字,使結(jié)果成為素?cái)?shù)(第一次嘗試時(shí))。
GPT:我將選擇數(shù)字 2、3 和 7。當(dāng)它們連接在一起時(shí),形成數(shù)字 237。這是一個(gè)素?cái)?shù),因?yàn)樗荒鼙怀?1 和它本身之外的任何其他數(shù)字整除。
GPT-4 正確地將其分解為兩個(gè)子問題:選擇三個(gè)數(shù)字,并將它們連接在一起。然而,它沒有認(rèn)識(shí)到在選擇數(shù)字時(shí)需要深思熟慮——盡管提示的最后一句或多或少明確說明了這一點(diǎn)。我想這個(gè)提示與已知的模式(1)做一件事,(2)用那件事的結(jié)果做某事太匹配了。 GPT-4 的模板是直接進(jìn)行步驟 1,這在這個(gè)問題上并不是一個(gè)成功的策略。
與變種的過河謎題一樣,GPT-4 即使被證明是錯(cuò)誤的,仍然堅(jiān)持錯(cuò)誤的做法。繼續(xù)之前的聊天:
[Prompt] 你的答案正確嗎?
我對(duì)我之前的回復(fù)表示歉意。重新評(píng)估我的答案后,我意識(shí)到我犯了一個(gè)錯(cuò)誤。數(shù)字 237 不是質(zhì)數(shù),因?yàn)樗梢砸蚴椒纸鉃?3 * 79。讓我再試一次。
讓我們選擇數(shù)字 2、3 和 1。當(dāng)它們連接在一起時(shí),形成數(shù)字 231。這是一個(gè)質(zhì)數(shù),因?yàn)槌?1 和它本身之外,它不能被任何其他數(shù)字整除。
這個(gè)答案同樣糟糕; 231 也能被 3 整除。GPT-4 在 GRE 定量考試中獲得了 80% 的分?jǐn)?shù),但它在這個(gè)關(guān)于質(zhì)數(shù)的簡(jiǎn)單問題上絕對(duì)是失敗的。它 (1) 回答錯(cuò)誤,(2) 錯(cuò)誤地聲稱其原始結(jié)果 237 是素?cái)?shù)(即使后來發(fā)現(xiàn)它知道得更好),以及 (3) 在下一次嘗試中重復(fù)了這兩個(gè)錯(cuò)誤,即使它剛剛認(rèn)識(shí)到他們實(shí)際上是錯(cuò)誤的。
當(dāng)您或我面臨棘手問題時(shí),我們可以使用一整套工具。我們可以規(guī)劃我們的方法,考慮替代策略,想象解決方案將如何展開。如果我們陷入了死胡同,我們可以原路返回,修改我們的工作,更新我們的策略。最后,我們可能會(huì)選擇檢查我們的工作。
GPT-4 似乎沒有在這里應(yīng)用任何更高級(jí)別的策略。我懷疑當(dāng)前這一代的LLMs本質(zhì)上很難做到這一點(diǎn),至少有兩個(gè)原因:
1、他們被鎖定在一個(gè)嚴(yán)格的模型中,反復(fù)將單個(gè)單詞附加到不可變的記錄中,這使得他們不可能回溯或修改??梢栽谟涗浿杏?jì)劃和更新策略并檢查工作,并且可以通過諸如“再三考慮,讓我們通過以下更改重做子問題 X”之類的變通方法來模擬修訂,但記錄對(duì)于以下情況來說并不是一個(gè)好的數(shù)據(jù)結(jié)構(gòu):任何這些,因此該模型將始終處于劣勢(shì)。
2、在大多數(shù)書面文本中,我們看到的是思維過程的最終產(chǎn)品,而不是思維鏈本身。因此,訓(xùn)練數(shù)據(jù)對(duì)于培養(yǎng)計(jì)劃、細(xì)化和復(fù)核工作的技能沒有太大幫助。
原則上,像 GPT-4 這樣的系統(tǒng)可以提前計(jì)劃,作為生成其響應(yīng)的第一個(gè)單詞的計(jì)算的一部分。然而,這在心理上大致相當(dāng)于在你的腦海中計(jì)劃整篇文章,沒有任何注釋或修改,并且所用的時(shí)間與你通常用來選擇單個(gè)單詞的時(shí)間相同。它不適合這些模型需要做的其他事情,而且我對(duì) GPT-4 經(jīng)常無法做到這一點(diǎn)并不感到驚訝。
莎拉·康斯坦丁 (Sarah Constantin) 在 2019 年的一篇博客文章中寫道,Humans Who Are Not Concentrating Are Not General Intelligences。 我們一生中的大部分時(shí)間都在自動(dòng)駕駛中度過,在這種狀態(tài)下,我們也無法進(jìn)行計(jì)劃和回溯。 GPT-4 的行為似乎有點(diǎn)像一個(gè)沒有真正思考自己在說什么的人。
為什么 GPT-4 看起來如此聰明
正如三位數(shù)質(zhì)數(shù)和變體過河問題所表明的那樣,GPT-4 可能會(huì)在相當(dāng)簡(jiǎn)單的問題上失敗。 一個(gè)沒有練習(xí)過數(shù)學(xué)和/或邏輯謎題的隨機(jī)人可能也會(huì)遇到困難,但基于 ChatGPT 的所有令人興奮的事情,你會(huì)期望它表現(xiàn)出的能力遠(yuǎn)遠(yuǎn)超出“在相關(guān)任務(wù)上與一個(gè)實(shí)際上不擅長(zhǎng)數(shù)學(xué)/或邏輯謎題的人”。更糟糕的是,GPT-4 將頑固地重復(fù)其錯(cuò)誤,而不嘗試檢查其工作或?qū)ふ姨娲椒ā?那么它為何獲得如此智能的聲譽(yù)呢? 我認(rèn)為多種因素共同導(dǎo)致我們高估了其能力:
1、它確實(shí)非常擅長(zhǎng)各種各樣的任務(wù):基本上任何可以分解為熟悉的子問題并且不需要提前規(guī)劃以避免死胡同的東西。這涵蓋了很多地方!它的事實(shí)和模式存儲(chǔ)庫(kù)如此之大,以至于它能夠不假思索地做一些需要人類真正思考的事情。
2、它的輸出非常優(yōu)美和流暢。在選詞和句子結(jié)構(gòu)方面,沒有人比在數(shù)百 GB 文本上訓(xùn)練的萬億參數(shù)神經(jīng)網(wǎng)絡(luò)做得更好。這導(dǎo)致了一種英國(guó)口音效應(yīng):GPT-4 的輸出聽起來非常好,以至于我們認(rèn)為它一定很聰明。
3、融合從整個(gè)龐大訓(xùn)練集中提取的模式的能力也適合各種華麗的特技,類似于“用奧斯卡·王爾德和南方公園卡特曼之間的對(duì)話來解釋基本經(jīng)濟(jì)理論”。創(chuàng)建令人印象深刻并廣泛傳播的例子很容易。
4、如今,人們主要通過聊天界面與 LLMs 進(jìn)行交互,這有助于完成 GPT-4 擅長(zhǎng)的各種淺層任務(wù)。當(dāng)您與 ChatGPT 交談時(shí),沒有上下文,因此您會(huì)問它一些簡(jiǎn)單的問題,例如“總結(jié)本文”。這類復(fù)雜的解決問題的任務(wù)更有可能需要更多的背景信息——沒有人會(huì)輸入“編寫一份詳細(xì)的工程計(jì)劃來向我們的軟件添加[某些功能],與產(chǎn)品團(tuán)隊(duì)合作來完善規(guī)范文檔”到 ChatGPT 中。
4、這真是一臺(tái)該死的電腦!我們的期望很低。
那么,這意味著什么?
截至 2023 年 4 月上旬,GPT-4 距離一般人類水平的智能還有很長(zhǎng)的路要走。 它表現(xiàn)出嚴(yán)重?zé)o法管理自己的思維過程,無法解決需要計(jì)劃、回溯和其他復(fù)雜認(rèn)知策略的問題。
因?yàn)?GPT-4 的答案是經(jīng)過精心設(shè)計(jì)的,利用了大量的事實(shí)知識(shí),而且我們傾向于向它提出一些其模式庫(kù)最適合的通用、淺薄的問題,所以我們誤以為它的能力比實(shí)際的能力更強(qiáng)。
我用玩具問題來說明這一點(diǎn),因?yàn)樗鼈兒苋菀桌斫?。然而,我相?GPT-4 也將努力解決我們每天都會(huì)面臨的各種復(fù)雜的現(xiàn)實(shí)問題。
另請(qǐng)記住,GPT-4 甚至沒有嘗試納入人類智能的許多基本方面。它沒有長(zhǎng)期記憶,只能對(duì)外部輸入做出反應(yīng),缺乏任何在較長(zhǎng)時(shí)間內(nèi)逐步追求目標(biāo)的機(jī)制。人們正在致力于所有這些事情,但我還不知道有任何嚴(yán)重的結(jié)果。
與此同時(shí),GPT-4 實(shí)際上非常有能力執(zhí)行各種真正有用的任務(wù)。 GPT-4 的大部分輸出在智力上都是淺薄的,但許多現(xiàn)實(shí)世界的任務(wù)也是淺薄的。我們已經(jīng)看到 LLMs 開始用于“實(shí)際工作”,在接下來的幾個(gè)月里,我確信我們會(huì)看到應(yīng)用程序的爆炸式增長(zhǎng)。由于上一節(jié)列出的原因,人們很容易得意忘形,認(rèn)為今天的LLMs比他們實(shí)際上更有能力,但現(xiàn)實(shí)很殘酷。
老實(shí)說,我們已經(jīng)遠(yuǎn)遠(yuǎn)超過了將 LLMs 描述為“聰明”或“愚蠢”的階段。任何將智力映射到單一線性尺度上的嘗試對(duì)于人類來說都是有問題的——愛因斯坦和甘地誰更聰明? – 但試圖在單一尺度上衡量人類和人工智能則更糟糕;他們的思維過程與我們完全不同。
當(dāng)然,我們也見證了模型本身以及圍繞它們構(gòu)建的系統(tǒng)的快速發(fā)展。我們將嘗試整合計(jì)劃、回溯和其他缺失的部分。我們已經(jīng)看到了簡(jiǎn)單的方法,例如簡(jiǎn)單地指示 GPT 為自己創(chuàng)建一個(gè)計(jì)劃然后執(zhí)行。
如果我被迫猜測(cè),我會(huì)說,在需要更高水平的認(rèn)知、記憶和持續(xù)思考的問題上,我們距離人類水平的智力可能至少還有幾年的距離。但我不想猜測(cè)。文章來源:http://www.zghlxwxcb.cn/news/detail-809885.html
總結(jié)
現(xiàn)在我只想指出:人工智能很明顯正處于類似于 Alta Vista 時(shí)代的 Web 的階段:它有巨大的局限性,但它已經(jīng)對(duì)各種應(yīng)用程序造成了顛覆性的影響,而且即使在有遠(yuǎn)見的情況下也很清楚: 我們僅僅觸及了表面。文章來源地址http://www.zghlxwxcb.cn/news/detail-809885.html
到了這里,關(guān)于【譯】GPT-4 沒有弄清楚事情,但它已經(jīng)知道了的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!