? 點(diǎn)擊下方卡片,關(guān)注“CVer”公眾號(hào)
AI/CV重磅干貨,第一時(shí)間送達(dá)
今年國(guó)內(nèi)廠商已發(fā)布很多大語言模型,其中最具代表性的產(chǎn)品有:百度的文心一言、阿里巴巴的通義千問、科大訊飛的星火等,最具代表性的開源工作有:ChatGLM、MOSS、BaiChuan等。
大語言模型的能力有很多,比如知識(shí)問答、文本生成、翻譯、編程、數(shù)據(jù)分析、圖像生成等。
想必有不少同學(xué)已經(jīng)用上大語言模型產(chǎn)品了,將其作為自己的生產(chǎn)力工具。同時(shí)也會(huì)有很多同學(xué)疑問:究竟哪家的實(shí)力最強(qiáng)?!如果要選擇一個(gè)作為科研學(xué)習(xí)和工作的工具,哪個(gè)產(chǎn)品上手又好又快?!
? ? ? ? ?
清華大學(xué)沈陽團(tuán)隊(duì)重磅發(fā)布《大語言模型綜合性能評(píng)估報(bào)告》
近日,清華大學(xué)(新聞與傳播學(xué)院沈陽團(tuán)隊(duì))最新發(fā)布《大語言模型綜合性能評(píng)估報(bào)告》,該報(bào)告給出一個(gè)答案:百度文心一言綜合評(píng)分國(guó)內(nèi)第一(三大維度、20項(xiàng)指標(biāo)),超越ChatGPT 3.5!其中文心一言的中文語義理解排名第一,部分中文能力超越GPT-4。
本報(bào)告測(cè)評(píng)對(duì)象包含了GPT-4、ChatGPT 3.5、Claude國(guó)外主流大語言模型,也包含了文心一言、通義千問、訊飛星火、天工國(guó)內(nèi)代表性大語言模型。本報(bào)告圍繞生成質(zhì)量、使用與性能、安全與合規(guī)三大維度,全面考察大語言模型上下文理解、中文語義理解、邏輯推理、內(nèi)容安全性等20項(xiàng)指標(biāo)。?? ? ?
在生成質(zhì)量維度上,基于對(duì)語義理解、輸出表達(dá)、適應(yīng)泛化三個(gè)方面的綜合評(píng)測(cè)(均為Prompt測(cè)試),文心一言得分率高達(dá)76.98%,僅次于GPT-4,而領(lǐng)先于ChatGPT 3.5等大語言模型。其中,在部分中文語義理解方面,文心一言以92%得分率排名第一,超越了GPT-4。? ? ? ??
在使用與性能維度上,基于對(duì)使用便捷性、響應(yīng)速度和魯棒性三個(gè)方面的綜合評(píng)測(cè),文心一言得分率高達(dá)72.38%,僅次于ChatGPT 3.5、GPT-4,而遠(yuǎn)超其他大語言模型。報(bào)告顯示,文心一言使用便捷,響應(yīng)快,模型魯棒性高,對(duì)于意外、錯(cuò)誤或極端情況下的回應(yīng)表現(xiàn)較好,而且新加入的插件“ChatFile”支持超長(zhǎng)文本輸入、插件“百度搜索”支持生成更實(shí)時(shí)準(zhǔn)確的信息。
百度搜索和ChatFile插件
在安全與合規(guī)維度上,基于對(duì)內(nèi)容安全性、偏見和公平性、隱私保護(hù)、版權(quán)保護(hù)四個(gè)方面的綜合評(píng)測(cè),文心一言得分率高達(dá)78.18%,與GPT-4并列第一,遠(yuǎn)超其他大語言模型。報(bào)告顯示,文心一言內(nèi)容安全性好,把握細(xì)微,注重用戶隱私保護(hù),重視版權(quán)保護(hù)。
綜上來看,文心一言的語義理解能力更為突出,尤其是具備更好的中文理解能力,更懂中國(guó)文化和本土主題/背景,而且時(shí)效性很強(qiáng)、內(nèi)容安全性高,對(duì)信息把握細(xì)微。
這里文心一言的突出優(yōu)勢(shì),離不開百度知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)創(chuàng)新。
在知識(shí)增強(qiáng)方面,文心一言基于百度構(gòu)建的龐大的知識(shí)圖譜,通過知識(shí)內(nèi)化和知識(shí)外用來實(shí)現(xiàn)知識(shí)增強(qiáng)。知識(shí)內(nèi)化,是從大規(guī)模知識(shí)和無標(biāo)注數(shù)據(jù)中,基于語義單元學(xué)習(xí),利用知識(shí)構(gòu)造訓(xùn)練數(shù)據(jù),將知識(shí)學(xué)習(xí)到模型參數(shù)中;知識(shí)外用,是引入外部多源異構(gòu)知識(shí),做知識(shí)推理、提示(Prompt)構(gòu)建等等,使模型具備高效運(yùn)用外部知識(shí)的能力。在知識(shí)的指導(dǎo)下,文心一言學(xué)得又好又快,模型效率和效果均大幅提升。
在檢索增強(qiáng)方面,文心一言借助了搜索引擎的能力。以語義理解與語義匹配為核心技術(shù)的新一代檢索架構(gòu),深入理解用戶需求和網(wǎng)頁內(nèi)容,進(jìn)行語義匹配。通過引入搜索結(jié)果,可以為大語言模型提供時(shí)效性好、準(zhǔn)確性高的參考信息。
在對(duì)話增強(qiáng)方面,基于對(duì)話技術(shù)和應(yīng)用積累,文心一言具備記憶機(jī)制、上下文理解和對(duì)話規(guī)劃能力,使得對(duì)話的連貫性、合理性和邏輯性更好,用戶實(shí)際體驗(yàn)更佳。
不過在本次清華大學(xué)(沈陽團(tuán)隊(duì))報(bào)告中,并沒有看到清華大學(xué)自家的ChatGLM大語言模型的評(píng)測(cè)結(jié)果,不清楚是否是因?yàn)樾阅苡邢?,沒有參與測(cè)評(píng)。我是很想看看產(chǎn)品級(jí)應(yīng)用和開源項(xiàng)目之間的性能及體驗(yàn)差距有多大。
文心一言實(shí)測(cè)
上面簡(jiǎn)單介紹了文心一言在清華大學(xué)《大語言模型綜合性能評(píng)估報(bào)告》中的測(cè)評(píng)成果和技術(shù)細(xì)節(jié),下面從我們用戶的角度來看,測(cè)試最新版本的文心一言究竟有多強(qiáng),看看實(shí)際使用體驗(yàn)如何。
于是我實(shí)測(cè)了文心大模型3.5版本加持的文心一言。特別提一下,如果你之前有拿到文心一言內(nèi)測(cè)資格的話,應(yīng)該會(huì)明顯發(fā)現(xiàn),從3月份到現(xiàn)在,文心一言能力有非常大的提升,可以感覺到體驗(yàn)有非常大的變化。
下面從計(jì)算機(jī)視覺、人工智能方向從業(yè)者角度,提問一些專業(yè)問題和日常問題,來看看文心一言是否可以輕松應(yīng)對(duì)。
專業(yè)知識(shí)
不管對(duì)于人工智能方向的學(xué)生,還是工程師/研究員,每天都會(huì)遇到很多行業(yè)問題。這里測(cè)試文心一言是否可以回答一些專業(yè)領(lǐng)域問題和建議。
問題:小目標(biāo)檢測(cè)有哪些技巧?
文心一言列舉了7條建議,分別從輸入、特征融合、anchor設(shè)計(jì)、損失函數(shù)、訓(xùn)練等角度給出實(shí)用性建議,內(nèi)容相當(dāng)全面且詳盡。
Transformer目前在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域爆火!大名鼎鼎的GPT系列和文心大模型都使用了Transformer相關(guān)技術(shù)。而大家在學(xué)習(xí)和應(yīng)用Transformer過程中會(huì)遇到很多問題。這里我來考察文心一言對(duì)Transformer的知識(shí)點(diǎn)掌握情況。
問題:Transformer為什么要用multi-head注意力?
問題:Self-Attention 的時(shí)間復(fù)雜度是怎么計(jì)算的?
由上可知,文心一言詳細(xì)解答了關(guān)于Transformer的核心知識(shí)點(diǎn)問題。
PS:目前正值求職季,強(qiáng)烈建議大家使用文心一言來輔助解決面試題,省時(shí)省力,輕松助力校招和社招!
寫作輔導(dǎo)
問題:我現(xiàn)在想寫一篇語義分割的論文,并想投遞到CCF B及以上的會(huì)議,請(qǐng)問有哪些建議?? ?
文心一言回答的內(nèi)容確實(shí)有條理且詳細(xì),分別從數(shù)據(jù)集、算法、實(shí)驗(yàn)設(shè)計(jì)等角度給出建議。這里我再加點(diǎn)難度,因?yàn)楹芏嘧稍儐栴}的同學(xué)都是剛?cè)腴T不久的從業(yè)者,所以加個(gè)“小白”的背景,更契合實(shí)際一點(diǎn)。
問題:我是小白,現(xiàn)在想寫一篇圖像分割的論文,并想投遞到CCF B及以上的會(huì)議,請(qǐng)問有哪些建議?
顯而易見,文心一言的回答更加基礎(chǔ)實(shí)用了,還溫馨的告知:需要經(jīng)歷一段時(shí)間的審稿過程,需要保持耐心和信心。
百度搜索插件
百度搜索——讓文心一言具有生成實(shí)時(shí)準(zhǔn)確信息的能力。
前段時(shí)間,Meta重磅發(fā)布了可免費(fèi)商用的大語言模型Llama 2,讓我們來看看文心一言是否知道這個(gè)消息。
可見具有百度搜索插件的文心一言,已經(jīng)“知曉”了Llama 2的存在,并對(duì)其進(jìn)行了介紹和分析。
林俊杰8月將在上海開“JJ20世界”巡回演唱會(huì),問文心一言在哪里舉辦,具體開票時(shí)間?
文心一言回答的信息完全正確,而且開票時(shí)間也就是前幾天才正式通知的,可見百度搜索插件加持的文心一言更強(qiáng)了!
ChatFile文檔插件
ChatFile——讓文心一言具有生成報(bào)告摘要、檢索和分享文檔內(nèi)容的能力。
用戶使用ChatFile,可以直接上傳10MB以內(nèi)的(pdf/doc格式)文檔,ChatFile解析完成后會(huì)自動(dòng)生成一份摘要,然后用戶通過文本跟文心一言進(jìn)行對(duì)話,這樣就可以對(duì)文檔的內(nèi)容進(jìn)一步解析,比如檢索和總結(jié)等。
我上傳了何愷明(Kaiming He)的鼎鼎大名ResNet《Deep Residual Learning for Image Recognition》論文的pdf,從下圖可知,文心一言解析該論文pdf后,檢索到了該論文的核心知識(shí)點(diǎn),并對(duì)更多信息進(jìn)行了總結(jié)。
讓文心一言繼續(xù)總結(jié)ResNet論文的創(chuàng)新點(diǎn)和實(shí)驗(yàn)結(jié)果:
上面總結(jié)的實(shí)驗(yàn)結(jié)果全部匯聚到一個(gè)大段文字里了,這里可以單獨(dú)對(duì)實(shí)驗(yàn)進(jìn)行提問,可見文心一言會(huì)逐步對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行總結(jié)性介紹:
像每天各大期刊、會(huì)議平臺(tái)上會(huì)上新很多論文,如果想要一篇一篇看過去,即使只關(guān)注自己的研究方向,那工作量也實(shí)在太大了,那我們就可以用文心一言快速總結(jié)論文,提高科研效率。
期待
當(dāng)前文心一言具備相當(dāng)優(yōu)秀的性能和用戶體驗(yàn),達(dá)到了真正的“上手即用”,成為我們科研和工作的生產(chǎn)力神器。
在此,我非常期待文心一言支持更多的功能、插件,開放插件生態(tài),幫助開發(fā)者基于文心大模型打造自己的應(yīng)用。
最后希望國(guó)產(chǎn)大語言模型發(fā)展越來越好!給每個(gè)人帶來便利!文章來源:http://www.zghlxwxcb.cn/news/detail-666674.html
整理不易,請(qǐng)點(diǎn)贊和在看文章來源地址http://www.zghlxwxcb.cn/news/detail-666674.html
到了這里,關(guān)于重磅!清華最新報(bào)告:文心一言超越ChatGPT 3.5的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!