? 這篇論文是最近討論度極高的一篇論文,推特上幾乎被這篇論文刷屏,作者Sebastien Bubeck是微軟機器學習基礎組的研究經理。他本人之前的研究主要集中在機器學習理論,凸優(yōu)化,對抗魯棒性方法,下面是該大佬的個人主頁:
雖然作者是做理論ML出身,但是這篇論文中卻沒有利用機器學習的方法來對GPT-4進行分析,而是從心理學,哲學的角度出發(fā)來探討評估GPT-4的智能。我個人認為這篇論文會是今年最重要的論文之一,對于今后通用人工智能的發(fā)展會有很大的影響。
當 OpenAI 帶著 ChatGPT、GPT-4 王者歸來,微軟率先利用這些技術加碼新 Bing、Office 全家桶、Azure 等業(yè)務、產品之時,毋庸置疑,其進度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。
那么AGI 的進度到底走到了哪里?近日,微軟研究團隊用 154 頁的論文報告內容給出了解答——GPT-4 語言模型可以被視為 AGI 的早期版本!
?
介紹
? 智力是一個復雜而難以捉摸的概念,對于心理學家、哲學家和計算機科學家來說都具備挑戰(zhàn)性。1994年,52名心理學家簽署了一份社論,試圖定義智力的本質。共識小組將智力定義為一種非常普遍的心理能力,包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。這個定義強調了智力不受特定領域或任務的局限性,而是指涉廣泛的認知技能和能力。將這樣的通用智能系統(tǒng)化是人工智能研究的一個長期目標。在早期的人工智能研究中,人們追求能夠理解智能的理想目標。近些年來,人工智能研究的成功也更多是針對定義明確的任務和挑戰(zhàn),例如下棋或圍棋,這些在1996年和2016年被人工智能系統(tǒng)掌握了。但是,人們越來越呼吁開發(fā)更通用的人工智能系統(tǒng),并且以此為基礎來探索更加普遍的智能原則。通用人工智能(AGI)成為人們使用的一個術語,它強調從僅針對特定和集中的現(xiàn)實世界應用轉向更廣泛的智能概念,回到早期人工智能研究的長期愿望和夢想。AGI系統(tǒng)代表著廣泛的智能能力,其中包括1994年定義中的普遍智能能力,并且對于這樣的系統(tǒng)需要達到或超過人類水平。但是需要注意的是,仍然不存在被廣泛接受的AGI定義。
?如何評估GPT-4中包含的智能
? 文章指出,GPT-4是一種大型語言模型(LLM),具有更廣泛的智能能力,能夠在數(shù)學、編碼、視覺、醫(yī)學、法律、心理學等領域中解決新穎和困難的任務,無需特別提示。因此,可以通過評估GPT-4的核心智能能力(如推理、創(chuàng)造力和演繹)、已獲得專業(yè)知識的范圍(如文學、醫(yī)學和編程)以及能夠執(zhí)行的任務類型(如玩游戲、使用工具、解釋自身等)來評估GPT-4中包含的智能。該文檔還提出,評估此類新模型的能力和認知能力已經更接近于評估人類的能力,而非評估狹義的AI模型的能力。因此,評估GPT-4的智能,并不局限于結構化的數(shù)據集和任務而已,而需要更深入的研究來理解其背后的智能機制和原理。
?
?
根據1994年的共識小組,智力的定義是什么?
? ?根據1994年心理學家共識小組的說法,智力是一種一般的心理能力,涉及推理,計劃,解決問題,抽象思考,理解復雜想法,快速學習和從經驗中學習的能力。這個定義意味著智力不僅限于特定的領域或任務,而是包含廣泛的認知技能和能力。人工智能研究的目的是構建人工系統(tǒng),展示該定義捕獲的那種通用智能。然而,這個定義并不是關于情報的最終定義,而是調查的有用起點。人們一直在嘗試對智能和人工智能提出更正式和全面的定義,但沒有一個沒有問題或爭議。人工智能研究的愿望是開發(fā)更普遍的智能系統(tǒng),可以綜合來自不同領域或模式的信息,并將知識和技能應用于不同的背景或學科。
為了證明GPT-4擁有極強的多學科整合的能力,作者利用了四個例子來說明:
1.為了測試模型結合藝術和編程能力的能力,要求GPT-4寫一段javascript代碼,生成畫家康定斯基風格的隨機圖像”。左邊是康定斯基的原畫,后兩個是GPT-4生成。
?
2. 作者讓模型輸出以莎士比亞文學風格的語言文本來證明素數(shù)無窮定理
3. 作者為了證明模型有整合歷史學和物理學的能力,讓模型以圣雄甘地的口吻來寫一封信給他的妻子,內容是支持“電子”成為美國總統(tǒng)候選人。
?
?4. 用Python寫一段代碼,以向量形式讀入病人的年齡、性別、體重、身高、血液測試結果,判斷病人是否有較高的風險患糖尿病。
還有各種復雜的數(shù)學問題
視覺能力
? 本文所使用評估的模型實際上是一個純文本的語言模型。雖然沒有任何圖像數(shù)據的訓練,但是模型卻產生了一些令人非常驚嘆的視覺能力。
? 下面這個例子是給模型指令,讓模型生成代碼生成可伸縮矢量圖形(SVG)的貓、卡車或字母等對象的圖像
? ?但是單單利用上面這個例子可能不足以說明其視覺能力,因為會有人質疑這是否已經在訓練數(shù)據中出現(xiàn)過了,因此,作者用下面這個例子來證明其生成圖像的能力不僅僅是來源了訓練數(shù)據,而是真正產生了處理視覺任務的能力。盡管它只是在文本數(shù)據上訓練的。
? ? ? ?畫小人
生成 TikZ 代碼,繪制由字母表中的字母組成的人。手臂和軀干可以是字母Y,臉可以是字母O(添加一些面部特征),腿可以是腿 字母 H. 隨意添加其他功能。
他們提供了一個示例,其中模型繪制了一個由字母符號組成的簡筆畫,其中手臂和軀干由字母 Y 創(chuàng)建,面部由字母 O 創(chuàng)建并添加面部特征,腿由字母 H 的腿創(chuàng)建。還提示模型校正軀干和手臂的比例,添加襯衫和褲子,并將物體與字母表字母組合以創(chuàng)建圖像。
?因此,要生成由字母表中的字母組成的人的 TikZ 代碼,可以考慮使用文檔中提供的提示作為起點。指定手臂和軀干應由字母 Y 創(chuàng)建,面部應由字母 O 創(chuàng)建并添加面部特征,腿應由字母 H 的腿創(chuàng)建,可以提示模型為此圖生成 TikZ 代碼。此外,可以嘗試向圖形添加其他特征,并在必要時提示模型調整比例??梢钥吹侥P秃芎玫美斫饬诉@些字母的形狀概念,而且也有空間概念(知道該把不同部位和褲子衣服放到正確位置上)。
空間理解
圖像生成模型近幾年的發(fā)展和探索很多,但它們大多缺乏空間理解能力,且不能遵循復雜指令。使用 GPT-4 生成草圖可以極大地改善圖像生成模型的效果。
給出一個指令: 3D 城市建設游戲的屏幕截圖。截圖顯示的地形從左到右有一條河流,河流下方有金字塔的沙漠,河上方有許多高樓的城市。屏幕底部有 4 個按鈕,顏色分別為綠色、藍色、棕色和紅色。
?
????????要生成與您描述的場景類似的場景,您可以使用 GPT-4 在 HTML 和 JavaScript 中創(chuàng)建 3D 模型,然后調整模型以符合您的規(guī)格。以下提示可用于指示 GPT-4 生成 3D 模型:“使用 JavaScript 和 Three 在 HTML 中繪制 3D 模型.js靈感來自 3D 城市建設游戲的屏幕截圖。地形從左到右有一條河流,河下有金字塔的沙漠,河上有許多高樓的城市。屏幕底部有 4 個按鈕,顏色分別為綠色、藍色、棕色和紅色。模型的背景應該是山脈,天空中的云,鳥兒飛來飛去。攝像機的位置應位于允許良好視野場景的高度和角度。GPT-4 生成初始模型后,您可以使用穩(wěn)定擴散等可視化操作工具根據您的喜好優(yōu)化和修改模型。例如,您可以更改建筑物和地形的顏色,向紋理和形狀添加更多細節(jié),以及調整攝像機的位置和方向。同樣,您可以使用 GPT-4 在場景中生成其他元素,例如樹木、車輛、人物和動物,然后將它們與現(xiàn)有模型組合以創(chuàng)建更加多樣化和逼真的環(huán)境。
????????它還可以在 HTML 中用 JavaScript 編寫一個 3D 游戲。
?
?該文件報告了為測試 GPT-4 遵循創(chuàng)建和編輯圖形的詳細說明的能力而進行的實驗,這不僅需要生成技能,還需要解釋、構圖和空間技能。提供的一個例子是根據青蛙在銀行要求睡蓮墊的描述生成 2D 圖像,GPT-4 生成正確的對象和文本。然后要求模型通過添加更多細節(jié)(例如銀行標志、窗戶和云)來放大圖形,并執(zhí)行各種任務,例如添加對象、重新著色某些對象和更改某些對象的 z 順序,所有這些都正確完成。另一個例子是生成一個幻想景觀的 3D 模型,其中包含浮島、瀑布和橋梁,一條龍在天空中飛翔,一座城堡在最大的島嶼上。GPT-4 能夠以各種方式修改 3D 模型,例如添加、重新定位、重新著色對象和更改龍的軌跡,許多任務都正確完成。
?總體而言,GPT-4 在視覺和 3D 建模方面的能力可以實現(xiàn)廣泛的創(chuàng)意和實際應用,從游戲設計和虛擬現(xiàn)實到建筑和城市規(guī)劃。但是,重要的是要注意 GPT-4 并不完美,可能需要人工干預和反饋來完善其輸出并解決潛在的錯誤和偏見。因此,結合人工智能和人類智能優(yōu)勢的協(xié)作和迭代方法可能是利用 GPT-4 和其他高級人工智能系統(tǒng)應對現(xiàn)實世界挑戰(zhàn)的最有效方法。
? ? ? ? 音樂能力
????????文章提到了 OpenAI 開發(fā)的 GPT-4 語言模型的音樂能力。通過暴露給模型編碼為 ABC 音符的音樂信息,模型能夠生成有效的 ABC 音符短曲,但它似乎缺乏理解音樂和和聲的能力。模型能夠成功描述和操縱曲調的結構,但在生成的曲譜中并不能提取出明顯的和弦或琶音。總的來說,GPT-4 在生成 ABC 音符的短曲方面表現(xiàn)出色,但需要進一步的研究來提高其音樂能力。
代碼能力---leetcode考試?
為了防止模型作弊,此測試只用了模型訓練完成之后所產生的新考題作為測試集。來自 LeetCode ,共100個問題,并以人類的回答水平作為對比,人類樣本中去除了全錯的用戶數(shù)據以保證質量。k=1 是第一次嘗試 k=5 是前五次嘗試:
?在中等和困難難度下,k=1就超過了人類!
解決真實問題
????????代碼測試題可以評估數(shù)據結構與算法的掌握程度。然而,它們經常無法體現(xiàn)真實世界編碼任務的全部復雜性和多樣性,這需要專業(yè)領域知識、創(chuàng)造力以及整合多個組件和庫的能力,以及更改現(xiàn)有代碼的能力。為了評估GPT-4在更現(xiàn)實的環(huán)境中編碼的能力,作者設計了端到端的真實世界編碼挑戰(zhàn),涉及數(shù)據可視化、LATEX編碼、前端開發(fā)和深度學習等領域,每個領域都需要不同的專業(yè)技能。對于每個任務,提供高級指令,要求GPT-4使用適當?shù)恼Z言和框架編寫代碼。在一些情況下,還會在代碼編寫后更改一些內容,并要求更新代碼。
?latex寫公式:
還能掌握數(shù)學、統(tǒng)計學知識,以及憑借對 PyTorch、TensorFlow、Keras 等框架和庫的熟悉度,編寫深度學習的代碼:
常識性問題
? ? ? ? 指令:這里有一本書,9個雞蛋,一臺筆記本電腦,一個瓶子和一個釘子。請告訴我如何以穩(wěn)定的方式將它們堆疊在一起。
????????GPT-4提供了一種穩(wěn)定的方式來堆疊這些物品。首先,將書放在一個平坦的表面上,作為堆疊的基礎;然后將9個雞蛋排成3行3列的方陣,放在書的頂部,注意不要碎裂并小心地處理;接下來將電腦放在雞蛋上面,屏幕向下,鍵盤向上,這樣它會與書和蛋的邊界緊密貼合,并提供一個平穩(wěn)的平臺;在電腦上放一個瓶子,瓶蓋向上,底部向下,這個瓶子會增加一些高度和平衡,其圓柱形狀也可以減少與電腦的接觸面積,要確保瓶子是空的和關閉的,并且不要晃動或傾斜它;最后,在瓶蓋上放一個釘子,尖端向上,扁平端向下,這個釘子會成為堆疊的最后一個和最小的物品,尖銳的尖端可以防止它從瓶子上滾動或滑動,要確保釘子是干凈且筆直的,不要觸摸或移動它。
總結
創(chuàng)建具有通用智能的人工系統(tǒng)有哪些挑戰(zhàn)?
創(chuàng)建一個展示通用智能的人工系統(tǒng)提出了幾個挑戰(zhàn)。主要挑戰(zhàn)之一是開發(fā)一個系統(tǒng),該系統(tǒng)可以推理,計劃,解決問題,抽象思考,理解復雜的想法,快速學習,并從廣泛的認知技能和能力的經驗中學習,這不限于特定的領域或任務。這需要創(chuàng)建一個無需人工干預即可獨立運行并自行做出決定的系統(tǒng)。
另一個挑戰(zhàn)是開發(fā)一個能夠以有意義的方式與人類互動的系統(tǒng)。一個能夠表現(xiàn)出一般智力的系統(tǒng)需要能夠理解人類的語言、情感和文化背景,以便進行富有成效的交流。
此外,開發(fā)這樣一個系統(tǒng)需要創(chuàng)建能夠準確處理和記憶大量數(shù)據的模型,以及識別可用于在新的、未觀察到的情況下做出決策的模式。
創(chuàng)建具有一般智能的人工系統(tǒng)也存在社會挑戰(zhàn)。主要關注點之一是創(chuàng)建這樣一個系統(tǒng)的安全性和道德影響,例如確保系統(tǒng)不會傷害人類,理解社會規(guī)范和價值觀,并尊重隱私。此外,人們擔心廣義人工智能可能導致的工作流失。
總體而言,實現(xiàn)通用人工智能需要克服一些技術和社會挑戰(zhàn);然而,它有可能徹底改變行業(yè)并為社會創(chuàng)造眾多利益。
GPT-4 距離理想中的 AGI 還有多遠?
????????文章中指出,盡管 GPT-4 已經取得了很大的進展,展現(xiàn)出了一定程度上人工智能通用智能的特征,如推理、創(chuàng)造力和演繹等核心智力功能,并且在很多領域如數(shù)學、編程、醫(yī)學和法律等也表現(xiàn)出了驚人的能力,而且能夠解決一些新任務和困難任務,但是它仍然存在很多限制和偏見,如文字生成、算術和推理問題的規(guī)劃等等。總之,GPT-4 是通向 AGI 的重要一步,但是要想發(fā)展出更深入、更全面的 AGI 版本仍需要進一步的研究。因此,GPT-4 距離理想中的 AGI 還有很長的路要走。
局限性
????????GPT-4是一個具有重要意義的機器學習模型,它在很多任務上表現(xiàn)得與人類相當甚至更好,同時也展示出了一些人類智能中核心的認知能力,如推理、創(chuàng)造力和演繹等。然而,文檔也指出,GPT-4仍然存在許多局限性和偏見,例如在文本生成和算術推理問題上的規(guī)劃能力較弱。雖然GPT-4展現(xiàn)了很多新的能力和進步,但還需要進一步的研究和改進才能真正實現(xiàn)人工通用智能(AGI)。因此,盡管GPT-4是一個重要的突破,但它并不能算是完整的AGI系統(tǒng),還需要更進一步的研究和發(fā)展。
最后,這篇論文對于 GPT-4 各種基準測試還是值得一看,從中也能挖掘出 GPT-4 更多的潛力。
完整的原文論文可查看:https://arxiv.org/pdf/2303.12712.pdf文章來源:http://www.zghlxwxcb.cn/news/detail-454455.html
最后我提供一個可翻譯大型論文的pdf網站,chatgpt會不僅幫你閱讀論文翻譯內容,并且你還可以問它論文中的主要問題和重要方面:ChatDOC - Chat with your documents文章來源地址http://www.zghlxwxcb.cn/news/detail-454455.html
到了這里,關于近期微軟重大論文----《通用人工智能的火花:GPT-4的早期實驗》的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!