智譜CEO張鵬說:OpenAI摸著石頭過河,我們摸著OpenAI過河。
摸來摸去摸了一年,以每3-4個月升級一次基座模型的速度,智譜摸著OpenAI過河的最新成績到底怎么樣?真如所說嗎?
聽到GLM-4發(fā)布的當天,我就去試用了一下GLM-4,畢竟是國內(nèi) 全自研第四代基座大模型GLM-4!
實際體驗
我依次測試了多模態(tài)、ALL Tools、個性化智能定制功能。
多模態(tài)
首先測試其圖片理解能力,上傳了一張貓片:
從結果來看,它基本上理解了這個圖片的內(nèi)容。
上傳一張更復雜的圖片試試呢?圖片里有幾個人?幾個男人幾個女人?
我也是學CV的,它答不準的原因在于底層圖片識別、圖像分割能力的不足,還需要繼續(xù)努力。
為了測試它到底是不是真的理解圖片里的含義,我上傳了五環(huán)的圖片,它成功的告訴我這個是五環(huán),代表世界五大洲的團結和合作,贊!
All Tools
All Tools其實代表的是模型能否理解復雜指令,自由調(diào)用WebGLM搜索增強、Code Interpreter代碼解釋器和多模態(tài)生成能力,完成復雜任務。
我首先提了一個問題來驗證聯(lián)網(wǎng)能力:
它通過聯(lián)網(wǎng)搜索的方式給出了答案:
總體來說,給出的內(nèi)容還算不錯。
我想進一步看看它的信息整合能力如何,于是讓它進行表格的整理,這次等待的時間比較長,因為聯(lián)網(wǎng)搜索了很久···,甚至還超時失敗了,最終也沒成功。
代碼解釋(CodeInterpreter)能力如何呢?先問了一下運行環(huán)境,但是無法給出準確的內(nèi)存限制等,只給出了一些支持的代碼或者運行庫,值得注意的是,在運行的代碼里本身不能聯(lián)網(wǎng):
為了測試基本的代碼能力,我讓它進行python得文件讀取和保存:
畫圖能力如何呢?嘗試一個主體進行三種風格的爆改:
怎么說呢,雖然在細節(jié)方面還不夠好,比不上Dalle-3、SD或者MJ,但是已經(jīng)基本能夠滿足要求了。可以滿足給小朋友或者簡單場景的繪畫需求。
GLMs個性化智能體定制
這個功能其實瞄準的就是GPTs了,甚至從官方公告上來看,未來GLMs也將開放出開發(fā)者權限,并且進行收益分成(但是現(xiàn)在有個問題,GLM本身是不收費的,怎么盈利分成呢?可能的答案是:進行會員收費;回答里嵌套廣告)
MaaS平臺和API
按照智譜AI官方的說法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果) 。
據(jù)智譜AI CEO張鵬介紹,GLM-4的整體性能相比上一代大幅提升,逼近GPT-4。 它可以支持更長的上下文,具備更強的多模態(tài)能力。同時,它的推理速度更快,支持更高的并發(fā),大大降低推理成本。
此次發(fā)布的 GLM-4,在多個評測集上性能已接近或超過GPT-3.5,個別項目上幾乎持平GPT-4。其中以下四個能力更新,是 GLM-4 最大的亮點:
- 多模態(tài)能力:推出了CogView3代,效果超過開源SD模型,逼近 DALLE-3。
- All Tools能力:GLM-4能自主理解復雜指令,自由調(diào)用WebGLM搜索增強、Code Interpreter代碼解釋器和多模態(tài)生成能力,完成復雜任務。
- GLMs個性化智能體定制:用戶可以通過智譜清言官方網(wǎng)站創(chuàng)建屬于自己的GLM智能體,無需編程基礎。
- MaaS平臺和API:GLM-4登陸了Maas平臺,提供API訪問,支持開發(fā)者內(nèi)測Assistant API。
數(shù)據(jù)指標
數(shù)據(jù)集表現(xiàn)
MMLU(Massive Multitask Language Understanding):評估大模型的對于知識的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能達到GPT4的94% ;
GSM8K(Grade School Math 8K):測試數(shù)學能力,小學數(shù)學和初中數(shù)學水平。GLM-4得分87.6,達到GPT-4的95%;
MATH:數(shù)學測試,涉及到一些較難的邏輯推理,GLM-4得分47.9,達到GPT-4的91% ;
BBH(Big Bench Hackathon):偏綜合測試,比如翻譯、語言理解、邏輯推理等內(nèi)容。GLM-4得分82.3,達到GPT-4的99%水平;
HellaSwag:偏常識測試,GLM-4得分85.4,達到GPT-4的90%水平;
HumanEval:純粹的編程任務。評測大模型在算法、代碼、編程層面的效果。GLM-4得分72,達到GPT-4的100%水平。
指令跟隨能力方面,和GPT-4相比,IFEval在Prompt提示詞跟隨(中文)方面達到88%,指令跟隨(中文)方面達到 90%水平,超過GPT-3.5。
對齊能力上,基于AlignBench數(shù)據(jù)集,GLM-4超過了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。
大海撈針測試, GLM-4模型能夠在128K文本長度內(nèi)實現(xiàn)幾乎100%的精度召回,并未出現(xiàn)長上下文全局信息因為失焦而導致的精度下降問題。
展望
在 2023 年,智譜 AI 基于 GLM-130B 研發(fā)了 ChatGLM,并經(jīng)過三個版本的迭代,逐漸增加了多模態(tài)理解、代碼解釋、網(wǎng)絡搜索增強等新功能。
去年年初,智譜 AI 承諾要在 2023 年底實現(xiàn)逼近最先進的 GPT-4 性能的全棧自主創(chuàng)新的 GLM-4。作為一年前設定的目標,GLM-4 的性能已經(jīng)有了顯著提升。從標準的大模型評估角度來看,整體上已經(jīng)逼近了 GPT-4。文章來源:http://www.zghlxwxcb.cn/news/detail-804894.html
希望國產(chǎn)大模型能夠更進一步,我很擔心未來在AI領域,又出現(xiàn)被掐脖子的事情~文章來源地址http://www.zghlxwxcb.cn/news/detail-804894.html
到了這里,關于GLM-4多模態(tài)重磅更新!摸著OpenAI過河!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!