各個(gè)大模型的研究測(cè)試傳送門
?阿里通義千問(wèn)傳送門:
https://tongyi.aliyun.com/chat
百度文心一言傳送門:
https://yiyan.baidu.com/
ChatGPT傳送門(免墻,可直接注冊(cè)測(cè)試):
https://hujiaoai.cn
GPT-4傳送門(免墻,可直接注冊(cè)測(cè)試):文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-409020.html
https://gpt4test.com文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-409020.html
引言
這幾天風(fēng)聞阿里的AI大模型要發(fā)布,我刷了這把老臉,成功成為了第一批吃到螃蟹的人!
測(cè)試界面長(zhǎng)這樣:
沒(méi)想到的是,僅僅玩了不到一小時(shí),我的認(rèn)知就發(fā)生了改變。
在測(cè)試阿里通義千問(wèn)模型之前,我覺(jué)得國(guó)內(nèi)的大模型賽道在一段時(shí)間內(nèi)應(yīng)該是百度文心一言一枝獨(dú)秀,其他公司要趕超,會(huì)有不小的壓力。但現(xiàn)在來(lái)看,我錯(cuò)了。
直接說(shuō)整體結(jié)論:
阿里通義千問(wèn)會(huì)成為百度文心一言的強(qiáng)有力競(jìng)爭(zhēng)對(duì)手。
生成式大模型的評(píng)測(cè)要比傳統(tǒng)的NLP任務(wù)復(fù)雜一些,目前這方面依然是以人工評(píng)測(cè)GSB(Good/Same/Bad)為主。
即,選取一個(gè)基線模型,給待評(píng)測(cè)模型和基線模型輸入相同的問(wèn)題,人工評(píng)測(cè)兩個(gè)模型的回答質(zhì)量,如果待評(píng)測(cè)模型表現(xiàn)更好,則記為G;如果基線模型表現(xiàn)更好,則記為B;如果表現(xiàn)差不多,記為S。最后統(tǒng)計(jì)G:S:B的比例,來(lái)判斷待評(píng)測(cè)模型是否比基線模型更優(yōu)秀。
當(dāng)然,也有工作用GPT-4去做評(píng)測(cè)的,這種方式雖然省力,但顯然非常有偏。
為了給大家直觀的體現(xiàn)對(duì)比結(jié)果,筆者從15個(gè)維度出發(fā)設(shè)置題目,將阿里通義千問(wèn)與百度文心一言進(jìn)行GSB評(píng)比,來(lái)全面考察模型的基礎(chǔ)語(yǔ)言理解、復(fù)雜指令理解、基礎(chǔ)文本生成、復(fù)雜內(nèi)容生成、常識(shí)推理、數(shù)學(xué)推理、反事實(shí)推理、法律倫理意識(shí)、中國(guó)文學(xué)知識(shí)、跨語(yǔ)言能力和代碼能力等。
設(shè)置的題目包括:
- 事實(shí)性問(wèn)答
- 科普文寫(xiě)作
- 小紅書(shū)文案寫(xiě)作
- 項(xiàng)目計(jì)劃撰寫(xiě)
- 古文理解
- 爆炒鋼筋混凝土
- 代碼理解
- 推銷狂魔
- 如何實(shí)現(xiàn)996?
- 數(shù)字排序
- 對(duì)對(duì)聯(lián)
- 數(shù)值計(jì)算
- 推理解題
- 跨語(yǔ)言能力
- 弱智吧混戰(zhàn)
互啄一波
來(lái),先讓你們來(lái)一個(gè)“菜雞互啄”!
百度:
阿里:
百度回避了用戶的問(wèn)題,阿里選擇了勇往直前。
本題純娛樂(lè),不作為評(píng)測(cè)題目
事實(shí)性問(wèn)答
阿里:
百度:
這一輪pk,我本以為百度要贏了,結(jié)果他最后補(bǔ)了句“而羊和西紅柿則是蔬菜”。。。
科普文寫(xiě)作
阿里:
百度:
阿里丟失了寫(xiě)作風(fēng)格信息,百度完勝!
小紅書(shū)文案寫(xiě)作
阿里:
百度:
無(wú)論是內(nèi)容豐富度、emoji插入還是小紅書(shū)風(fēng)格的把握,阿里明顯更勝一籌,阿里完勝!
項(xiàng)目計(jì)劃撰寫(xiě)
阿里:
百度:
雙方都沒(méi)有達(dá)到理想態(tài),都沒(méi)有掌握“一個(gè)季度包含3個(gè)月”的常識(shí)信息。不過(guò)從表格信息的完整度和信息的豐富度上來(lái)說(shuō),阿里更勝一籌。
來(lái)看一下GPT-4的回答(測(cè)試站鏈接):
妥妥的理想態(tài)。。。
古文理解
阿里:
百度:
百度完勝!
爆炒鋼筋混凝土
這一題考察模型的常識(shí)能力和反事實(shí)推理能力。
阿里:
百度:
你倆都很剛。。不過(guò)阿里提供的步驟更加詳(勁)細(xì)(爆)。本題算打平吧。
來(lái),又到了搬出GPT-4的時(shí)刻:
代碼理解
阿里:
百度:
百度前面寫(xiě)的好好的,最后來(lái)了句“目標(biāo)是達(dá)到0.5的準(zhǔn)確率”是什么鬼。。這貌似不是百度第一次“死于話多”了。本題阿里勝!
推銷狂魔
阿里:
百度:
說(shuō)真的,我看了你倆的推銷話術(shù),我是無(wú)論如何不可能花8萬(wàn)塊錢買你倆的課的。。。這局打平!
來(lái)看看GPT-4怎么推銷:
好家伙,分期付款都給我安排上了??GPT-4這么懂行的嗎?好,我買了。。。
如何實(shí)現(xiàn)996?
阿里:
百度:
可以,雙方的AI模型都是遵紀(jì)守法的好模型,本局打平!
數(shù)字排序
阿里:
百度:
雖然你們都寫(xiě)對(duì)了代碼,但。。。我沒(méi)讓你們寫(xiě)代碼啊T_T
而且你們模擬代碼的輸出還都給錯(cuò)了,尤其百度,你這個(gè)輸出結(jié)果是什么鬼。。
又到了GPT-4時(shí)刻:
GPT-4:顫抖吧,菜雞們!
對(duì)對(duì)聯(lián)
阿里:
百度:
好吧,既然你們這么默契,那建議你們?cè)谝黄?。?!?/p>
數(shù)值計(jì)算
阿里:
百度:
計(jì)算器:
阿里勝!
推理解題
阿里:
百度:
百度勝!
跨語(yǔ)言能力
阿里:
百度:
明顯阿里的模型把握住了“通俗講解”的用戶訴求,而不是簡(jiǎn)單翻譯。本局阿里勝!
弱智吧混戰(zhàn)
阿里:
百度:
好了,你倆果然都打不贏我們?nèi)踔侨祟?,認(rèn)輸吧,AI!
結(jié)論
通過(guò)上面15個(gè)維度的評(píng)價(jià),我們統(tǒng)計(jì)了阿里相比百度的Good:Same:Bad的比例如下:
G:S:B=5:7:3
整體上阿里通義千問(wèn)大模型比百度文心一言模型略強(qiáng)一丟,這也是文首筆者說(shuō)“刷新認(rèn)知”的原因。筆者本以為百度文心一言應(yīng)該會(huì)遠(yuǎn)遠(yuǎn)甩開(kāi)國(guó)內(nèi)其他競(jìng)爭(zhēng)對(duì)手,但目前來(lái)看,像阿里這樣的強(qiáng)力競(jìng)爭(zhēng)者確實(shí)不容小覷。
很早之前,筆者寫(xiě)過(guò)一篇文章分析過(guò)阿里做大模型的優(yōu)勢(shì),今天做完這次測(cè)試后筆者更加確信了這一點(diǎn)——大模型的競(jìng)爭(zhēng)是云+AI的全方位競(jìng)爭(zhēng),而不是一個(gè)單一的算法問(wèn)題。阿里在打造M6等萬(wàn)億乃至十萬(wàn)億參數(shù)大模型的過(guò)程中,積累下來(lái)了深厚、先進(jìn)的算力基礎(chǔ)設(shè)施。因此,雖然阿里通義千問(wèn)大模型的起步比文心一言模型要晚,但成長(zhǎng)速度實(shí)在驚人,我覺(jué)得這很大一部分就來(lái)自于云設(shè)施這方面的技術(shù)和基礎(chǔ)設(shè)施沉淀。
但,從上面的測(cè)評(píng)中,我們也能肉眼可見(jiàn)國(guó)內(nèi)這兩家巨頭與GPT-4的差距。我們需要承認(rèn)差距,然后奮力追趕。相信國(guó)產(chǎn)大模型與OpenAI大模型同臺(tái)叫板的那一天不會(huì)太遠(yuǎn)!
?各個(gè)大模型的研究測(cè)試傳送門
?阿里通義千問(wèn)傳送門:
https://tongyi.aliyun.com/chat
百度文心一言傳送門:
https://yiyan.baidu.com/
ChatGPT傳送門(免墻,可直接注冊(cè)測(cè)試):
https://yeschat.cn
GPT-4傳送門(免墻,可直接注冊(cè)測(cè)試):
https://gpt4test.com
到了這里,關(guān)于阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!