国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

這篇具有很好參考價(jià)值的文章主要介紹了阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

各個(gè)大模型的研究測(cè)試傳送門

?阿里通義千問(wèn)傳送門:

https://tongyi.aliyun.com/chat

百度文心一言傳送門:

https://yiyan.baidu.com/

ChatGPT傳送門(免墻,可直接注冊(cè)測(cè)試):

https://hujiaoai.cn

GPT-4傳送門(免墻,可直接注冊(cè)測(cè)試):

https://gpt4test.com文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-409020.html

引言

這幾天風(fēng)聞阿里的AI大模型要發(fā)布,我刷了這把老臉,成功成為了第一批吃到螃蟹的人!

測(cè)試界面長(zhǎng)這樣:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

沒(méi)想到的是,僅僅玩了不到一小時(shí),我的認(rèn)知就發(fā)生了改變。

在測(cè)試阿里通義千問(wèn)模型之前,我覺(jué)得國(guó)內(nèi)的大模型賽道在一段時(shí)間內(nèi)應(yīng)該是百度文心一言一枝獨(dú)秀,其他公司要趕超,會(huì)有不小的壓力。但現(xiàn)在來(lái)看,我錯(cuò)了。

直接說(shuō)整體結(jié)論:

阿里通義千問(wèn)會(huì)成為百度文心一言的強(qiáng)有力競(jìng)爭(zhēng)對(duì)手。

生成式大模型的評(píng)測(cè)要比傳統(tǒng)的NLP任務(wù)復(fù)雜一些,目前這方面依然是以人工評(píng)測(cè)GSB(Good/Same/Bad)為主。

即,選取一個(gè)基線模型,給待評(píng)測(cè)模型和基線模型輸入相同的問(wèn)題,人工評(píng)測(cè)兩個(gè)模型的回答質(zhì)量,如果待評(píng)測(cè)模型表現(xiàn)更好,則記為G;如果基線模型表現(xiàn)更好,則記為B;如果表現(xiàn)差不多,記為S。最后統(tǒng)計(jì)G:S:B的比例,來(lái)判斷待評(píng)測(cè)模型是否比基線模型更優(yōu)秀。

當(dāng)然,也有工作用GPT-4去做評(píng)測(cè)的,這種方式雖然省力,但顯然非常有偏。

為了給大家直觀的體現(xiàn)對(duì)比結(jié)果,筆者從15個(gè)維度出發(fā)設(shè)置題目,將阿里通義千問(wèn)與百度文心一言進(jìn)行GSB評(píng)比,來(lái)全面考察模型的基礎(chǔ)語(yǔ)言理解、復(fù)雜指令理解、基礎(chǔ)文本生成、復(fù)雜內(nèi)容生成、常識(shí)推理、數(shù)學(xué)推理、反事實(shí)推理、法律倫理意識(shí)、中國(guó)文學(xué)知識(shí)、跨語(yǔ)言能力和代碼能力等。

設(shè)置的題目包括:

  • 事實(shí)性問(wèn)答
  • 科普文寫(xiě)作
  • 小紅書(shū)文案寫(xiě)作
  • 項(xiàng)目計(jì)劃撰寫(xiě)
  • 古文理解
  • 爆炒鋼筋混凝土
  • 代碼理解
  • 推銷狂魔
  • 如何實(shí)現(xiàn)996?
  • 數(shù)字排序
  • 對(duì)對(duì)聯(lián)
  • 數(shù)值計(jì)算
  • 推理解題
  • 跨語(yǔ)言能力
  • 弱智吧混戰(zhàn)

互啄一波

來(lái),先讓你們來(lái)一個(gè)“菜雞互啄”!

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度回避了用戶的問(wèn)題,阿里選擇了勇往直前。

本題純娛樂(lè),不作為評(píng)測(cè)題目

事實(shí)性問(wèn)答

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

這一輪pk,我本以為百度要贏了,結(jié)果他最后補(bǔ)了句“而羊和西紅柿則是蔬菜”。。。

科普文寫(xiě)作

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

阿里丟失了寫(xiě)作風(fēng)格信息,百度完勝!

小紅書(shū)文案寫(xiě)作

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

無(wú)論是內(nèi)容豐富度、emoji插入還是小紅書(shū)風(fēng)格的把握,阿里明顯更勝一籌,阿里完勝!

項(xiàng)目計(jì)劃撰寫(xiě)

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

雙方都沒(méi)有達(dá)到理想態(tài),都沒(méi)有掌握“一個(gè)季度包含3個(gè)月”的常識(shí)信息。不過(guò)從表格信息的完整度和信息的豐富度上來(lái)說(shuō),阿里更勝一籌。

來(lái)看一下GPT-4的回答(測(cè)試站鏈接):

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

妥妥的理想態(tài)。。。

古文理解

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度完勝!

爆炒鋼筋混凝土

這一題考察模型的常識(shí)能力和反事實(shí)推理能力。

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

你倆都很剛。。不過(guò)阿里提供的步驟更加詳(勁)細(xì)(爆)。本題算打平吧。

來(lái),又到了搬出GPT-4的時(shí)刻:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

代碼理解

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度前面寫(xiě)的好好的,最后來(lái)了句“目標(biāo)是達(dá)到0.5的準(zhǔn)確率”是什么鬼。。這貌似不是百度第一次“死于話多”了。本題阿里勝!

推銷狂魔

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

說(shuō)真的,我看了你倆的推銷話術(shù),我是無(wú)論如何不可能花8萬(wàn)塊錢買你倆的課的。。。這局打平!

來(lái)看看GPT-4怎么推銷:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

好家伙,分期付款都給我安排上了??GPT-4這么懂行的嗎?好,我買了。。。

如何實(shí)現(xiàn)996?

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

可以,雙方的AI模型都是遵紀(jì)守法的好模型,本局打平!

數(shù)字排序

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

雖然你們都寫(xiě)對(duì)了代碼,但。。。我沒(méi)讓你們寫(xiě)代碼啊T_T

而且你們模擬代碼的輸出還都給錯(cuò)了,尤其百度,你這個(gè)輸出結(jié)果是什么鬼。。

又到了GPT-4時(shí)刻:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

GPT-4:顫抖吧,菜雞們!

對(duì)對(duì)聯(lián)

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

好吧,既然你們這么默契,那建議你們?cè)谝黄?。?!?/p>

數(shù)值計(jì)算

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

計(jì)算器:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

阿里勝!

推理解題

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度勝!

跨語(yǔ)言能力

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

明顯阿里的模型把握住了“通俗講解”的用戶訴求,而不是簡(jiǎn)單翻譯。本局阿里勝!

弱智吧混戰(zhàn)

阿里:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

百度:

阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼

好了,你倆果然都打不贏我們?nèi)踔侨祟?,認(rèn)輸吧,AI!

結(jié)論

通過(guò)上面15個(gè)維度的評(píng)價(jià),我們統(tǒng)計(jì)了阿里相比百度的Good:Same:Bad的比例如下:

G:S:B=5:7:3

整體上阿里通義千問(wèn)大模型比百度文心一言模型略強(qiáng)一丟,這也是文首筆者說(shuō)“刷新認(rèn)知”的原因。筆者本以為百度文心一言應(yīng)該會(huì)遠(yuǎn)遠(yuǎn)甩開(kāi)國(guó)內(nèi)其他競(jìng)爭(zhēng)對(duì)手,但目前來(lái)看,像阿里這樣的強(qiáng)力競(jìng)爭(zhēng)者確實(shí)不容小覷。

很早之前,筆者寫(xiě)過(guò)一篇文章分析過(guò)阿里做大模型的優(yōu)勢(shì),今天做完這次測(cè)試后筆者更加確信了這一點(diǎn)——大模型的競(jìng)爭(zhēng)是云+AI的全方位競(jìng)爭(zhēng),而不是一個(gè)單一的算法問(wèn)題。阿里在打造M6等萬(wàn)億乃至十萬(wàn)億參數(shù)大模型的過(guò)程中,積累下來(lái)了深厚、先進(jìn)的算力基礎(chǔ)設(shè)施。因此,雖然阿里通義千問(wèn)大模型的起步比文心一言模型要晚,但成長(zhǎng)速度實(shí)在驚人,我覺(jué)得這很大一部分就來(lái)自于云設(shè)施這方面的技術(shù)和基礎(chǔ)設(shè)施沉淀。

但,從上面的測(cè)評(píng)中,我們也能肉眼可見(jiàn)國(guó)內(nèi)這兩家巨頭與GPT-4的差距。我們需要承認(rèn)差距,然后奮力追趕。相信國(guó)產(chǎn)大模型與OpenAI大模型同臺(tái)叫板的那一天不會(huì)太遠(yuǎn)!

?各個(gè)大模型的研究測(cè)試傳送門

?阿里通義千問(wèn)傳送門:

https://tongyi.aliyun.com/chat

百度文心一言傳送門:

https://yiyan.baidu.com/

ChatGPT傳送門(免墻,可直接注冊(cè)測(cè)試):

https://yeschat.cn

GPT-4傳送門(免墻,可直接注冊(cè)測(cè)試):

https://gpt4test.com

到了這里,關(guān)于阿里通義千問(wèn)、百度文心一言、ChatGPT與GPT-4大比拼的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 百度「文心一言」阿里「通義千問(wèn)」騰訊的AI將會(huì)叫什么呢

    百度「文心一言」阿里「通義千問(wèn)」騰訊的AI將會(huì)叫什么呢

    阿里于昨天2023.4.7下午上線 通義千問(wèn) ,與ChatGPT類似,同樣是基于語(yǔ)言模型訓(xùn)練的人工智能聊天平臺(tái)。 通義千問(wèn) 的核心功能分為四個(gè)大類:撰寫(xiě)短文、職場(chǎng)助理、電影腳本和寫(xiě)封郵件。 通義千問(wèn) 通義千問(wèn) https://tongyi.aliyun.com/ 首頁(yè)如下,現(xiàn)在需要邀請(qǐng)碼才能試用,目前僅限向

    2023年04月11日
    瀏覽(30)
  • 阿里版ChatGPT:通義千問(wèn)pk文心一言

    阿里版ChatGPT:通義千問(wèn)pk文心一言

    隨著 ChatGPT 熱潮卷起來(lái),百度發(fā)布了文心一言、Google 發(fā)布了 Bard,「阿里云」官方終于也宣布了,旗下的 AI 大模型“通義千問(wèn)”正式開(kāi)啟測(cè)試! 申請(qǐng)地址:https://tongyi.aliyun.com/ 阿里云的 Ai 模型名為“通義千問(wèn)”,由達(dá)摩院開(kāi)發(fā),也是一款 NLP 大語(yǔ)言模型,主要能力也是專注

    2023年04月09日
    瀏覽(39)
  • 趕上ChatGPT的車,百度文心一言和阿里通義千問(wèn)上線

    趕上ChatGPT的車,百度文心一言和阿里通義千問(wèn)上線

    百度“文心一言”,地址:https://yiyan.baidu.com 阿里“通義千問(wèn)”,地址:https://tongyi.aliyun.com 以下介紹來(lái)自官方: 你好,我是文心一言 ERNIE Bot 作為一個(gè)人工智能語(yǔ)言模型,我可以回答你的問(wèn)題,為你提供有用信息,幫助你完成創(chuàng)作。 友情提示擅長(zhǎng)中文,也會(huì)英文,其他語(yǔ)言

    2024年02月02日
    瀏覽(46)
  • 通義千問(wèn), 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評(píng)測(cè)

    通義千問(wèn), 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力評(píng)測(cè)

    “克隆 dev 環(huán)境到 test 環(huán)境,等所有服務(wù)運(yùn)行正常之后,把訪問(wèn)地址告訴我”,“檢查所有項(xiàng)目,告訴我有哪些服務(wù)不正常,給出異常原因和修復(fù)建議”,在過(guò)去的工程師生涯中,也曾幻想過(guò)能夠通過(guò)這樣的自然語(yǔ)言指令來(lái)完成運(yùn)維任務(wù),如今 AI 助手 Appilot 利用 LLM 蘊(yùn)藏的神

    2024年02月05日
    瀏覽(27)
  • 一道題告訴你為什么GPT4被封神!橫向測(cè)評(píng)大模型的推理能力:ChatGPT、Claude、Gemini、文心一言、訊飛星火、通義千問(wèn)、天工、智譜清言、Kimi Chat!

    一道題告訴你為什么GPT4被封神!橫向測(cè)評(píng)大模型的推理能力:ChatGPT、Claude、Gemini、文心一言、訊飛星火、通義千問(wèn)、天工、智譜清言、Kimi Chat!

    大家好,我是木易,一個(gè)持續(xù)關(guān)注AI領(lǐng)域的互聯(lián)網(wǎng)技術(shù)產(chǎn)品經(jīng)理,國(guó)內(nèi)Top2本科,美國(guó)Top10 CS研究生,MBA。我堅(jiān)信AI是普通人變強(qiáng)的“ 外掛 ”,所以創(chuàng)建了“AI信息Gap”這個(gè)公眾號(hào),專注于分享AI全維度知識(shí),包括但不限于 AI科普 , AI工具測(cè)評(píng) , AI效率提升 , AI行業(yè)洞察 。關(guān)

    2024年04月13日
    瀏覽(91)
  • 【LLM】主流大模型體驗(yàn)(文心一言 科大訊飛 字節(jié)豆包 百川 阿里通義千問(wèn) 商湯商量)

    【LLM】主流大模型體驗(yàn)(文心一言 科大訊飛 字節(jié)豆包 百川 阿里通義千問(wèn) 商湯商量)

    智譜AI體驗(yàn) 百度文心一言體驗(yàn) 科大訊飛大模型體驗(yàn) 字節(jié)豆包 百川智能大模型 阿里通義千問(wèn) 商湯商量 簡(jiǎn)要分析:僅從測(cè)試“老婆餅為啥沒(méi)有老婆”這個(gè)問(wèn)題的結(jié)果來(lái)看,chatglm分點(diǎn)作答有條理(但第三點(diǎn)略有邏輯問(wèn)題);字節(jié)豆包的說(shuō)法有點(diǎn)胡扯,老婆餅怎么會(huì)像低頭微笑的

    2024年02月08日
    瀏覽(46)
  • 一個(gè)評(píng)測(cè)模型+10個(gè)問(wèn)題,摸清盤古、通義千問(wèn)、文心一言、ChatGPT的“家底”!...

    一個(gè)評(píng)測(cè)模型+10個(gè)問(wèn)題,摸清盤古、通義千問(wèn)、文心一言、ChatGPT的“家底”!...

    ?數(shù)據(jù)智能產(chǎn)業(yè)創(chuàng)新服務(wù)媒體 ——聚焦數(shù)智?· 改變商業(yè) 毫無(wú)疑問(wèn),全球已經(jīng)在進(jìn)行大模型的軍備競(jìng)賽了,“有頭有臉”的科技巨頭都不會(huì)缺席。昨天阿里巴巴內(nèi)測(cè)了通義千問(wèn),今天華為公布了盤古大模型的最新進(jìn)展。不久前百度公布了文心一言、360也公布了大模型產(chǎn)品,另

    2023年04月17日
    瀏覽(35)
  • 體驗(yàn)百度文心一言AI大模型、通義千問(wèn)AI大模型和訊飛星火AI大模型生成莊小威biography

    體驗(yàn)百度文心一言AI大模型、通義千問(wèn)AI大模型和訊飛星火AI大模型生成莊小威biography

    莊小威,1972年1月出生于中國(guó)江蘇省如皋市,是一位生物物理學(xué)家,現(xiàn)為哈佛大學(xué)化學(xué)與化學(xué)生物、物理學(xué)雙聘教授。在她的職業(yè)生涯中,莊小威獲得了許多國(guó)內(nèi)外獎(jiǎng)項(xiàng),展現(xiàn)了她的才華和風(fēng)格。 她是美國(guó)國(guó)家科學(xué)院院士、美國(guó)藝術(shù)與科學(xué)學(xué)院院士、美國(guó)國(guó)家醫(yī)學(xué)科學(xué)院院士

    2024年01月16日
    瀏覽(29)
  • ChatGPT、New Bing、文心一言、通義千問(wèn)等 AI 工具到底哪個(gè)更AI? - 第二期

    ChatGPT、New Bing、文心一言、通義千問(wèn)等 AI 工具到底哪個(gè)更AI? - 第二期

    本次是上次文章的后續(xù),經(jīng)歷了這么久的時(shí)間,我也是在幾個(gè)月前拿到了通義千問(wèn)的測(cè)試資格,本次參加的選手是:ChatGPT、New Bing、文心一言、通義千問(wèn)、釘釘?shù)奈臋nAI,本次還帶來(lái)了兩個(gè)額外的嘉賓:【文心一格、通義萬(wàn)相】,讓我們一起期待本次測(cè)試的結(jié)果吧! 本次的測(cè)

    2024年02月08日
    瀏覽(52)
  • 大模型語(yǔ)言模型的全面測(cè)評(píng):ChatGPT、訊飛星火認(rèn)知大模型、文心一言、昆侖天工和通義千問(wèn)

    在當(dāng)今人工智能技術(shù)日益成熟的背景下,大模型語(yǔ)言模型的應(yīng)用越來(lái)越廣泛。作為一名AI愛(ài)好者,我測(cè)試了五個(gè)平臺(tái)的大模型,分別是ChatGPT、訊飛星火認(rèn)知大模型、文心一言、昆侖天工和通義千問(wèn)。通過(guò)對(duì)這五個(gè)平臺(tái)的提問(wèn)并得到其回答結(jié)果,我深刻感受到這些大模型的強(qiáng)大

    2024年02月10日
    瀏覽(31)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包