金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
今年國產(chǎn)大模型的最后一聲槍響,屬于百度:
發(fā)布僅2個月,文心大模型4.0,能力又提升了32%。
文心一言用戶規(guī)模超過1個億!
這便是在深度學習“春晚”——WAVE SUMMIT+ 深度學習開發(fā)者大會2023中,百度CTO王海峰披露的有關文心大模型的最新數(shù)據(jù)。
值得一提的是,本屆“春晚”與以往有所不同,從2019年開始以“一年兩屆”的節(jié)奏,已然是來到了第10屆的標志性節(jié)點。
而在這整整五年的進程中,除了文心大模型從1.0逐步迭代到4.0之外,每屆WAVE SUMMIT的另一個主角飛槳,也迎來了里程碑。
從王海峰公布的一組飛槳生態(tài)的數(shù)據(jù)便可感知一二:
開發(fā)者規(guī)模:從2019年的150萬,直接提升一個量級,達到1070萬;
企業(yè)數(shù)量:服務了23.5萬家企事業(yè)單位;
模型數(shù)量:基于飛槳創(chuàng)建了86萬個模型。
那么在百度交出這份“大作業(yè)”的同時,文心一言和飛槳在具體表現(xiàn)上又如何?
我們現(xiàn)在一同來看下。
文心一言更強了
首先是文心一言。
百度集團副總裁吳甜在大會中也總結(jié)了一組與之相關的數(shù)據(jù):
2023年累計完成了37億字的文本創(chuàng)作。
什么概念?
字數(shù)規(guī)模相當于10部《永樂大典》、500套《魯迅全集》、1萬本《三體》。
在代碼編寫方面,文心一言也已經(jīng)輸出了3億行代碼,涵蓋到所有的主流編程語言。
除此之外,聚焦到更多細分任務,文心一言還完成了累計達到4億字的專業(yè)合同、制定500萬次的旅行計劃,以及240萬次的建議和支持等等。
不僅如此,為了讓文心一言能夠變得“更聰明”,百度還把AI Agent,即智能體技術融入了進來。
百度在智能體上的打法,是在文心一言中開發(fā)了兩個系統(tǒng):
系統(tǒng)一:以模型和記憶為基礎,給予用戶諸如直接反應的的答復生成;
系統(tǒng)二:加強理解、規(guī)劃、反思、進化等一系列的能力。
在二者“雙buff”加持之下,文心一言就可以把知識和工具用得更加靈活,問題也能剖析得更深。
更利好的一個消息是,現(xiàn)在,文心一言的智能體模式已經(jīng)面向?qū)I(yè)版用戶進行邀請測試了!
至于“新發(fā)布”這事上,百度這次在大模型上劍指的就是生態(tài)——星河社區(qū)整體大升級。
從下至上來看,在算力層方面,星河社區(qū)已經(jīng)為開發(fā)者提供異構(gòu)算力的支持,包括英偉達、英特爾和中科曙光等等。
通用組件方面,便可實現(xiàn)多語言編程環(huán)境和服務化部署。
在模型開發(fā)層面,星河社區(qū)提供了飛槳產(chǎn)業(yè)級模型庫以及飛槳的全流程開發(fā)工具,可以讓開發(fā)者用更靈活的方法去搞模型開發(fā)。
最后是在應用開發(fā)方面,百度也提供了多種模式,包括AI繪畫和AI對話的零門檻開發(fā)方法,以及大模型工具中心和多工具智能編排等。
而剛才提到的大模型工具中心,則是此次星河社區(qū)中重點新發(fā)的內(nèi)容之一。
例如在大模型工具中心的加持之下,現(xiàn)在要開發(fā)一個“旅游助手”,現(xiàn)在就變成“點點點”這樣的操作了。
首先來到飛槳AI Studio星河社區(qū)頁面的應用欄目,點擊右上角的“創(chuàng)建應用→零代碼開發(fā)”,然后點擊“多工具智能編排”,并輸入項目名稱:
為了讓“旅游助手”更加專業(yè),還可以通過在知識庫中上傳更專業(yè)的文檔,讓大模型變成專家,提升特定領域的問答能力。
還可以點擊“工具掛載”,把百度已經(jīng)提供出來的包括多模態(tài)輸入輸出等在內(nèi)的眾多掛載工具加進去。
最后只需再點擊“發(fā)布”,一個應用程序就搭建好了。
不難看出,現(xiàn)在開發(fā)一個應用程序,哪怕是不會編程的小白都能操作得游刃有余。
而在這背后,實則是百度將飛槳已經(jīng)積累了的產(chǎn)業(yè)級模型庫中的數(shù)百個模型塞了進去,涵蓋金融、制造業(yè)、工業(yè)等等;也包括百度大腦的AI能力,覆蓋語音、視覺、自然語言處理等主流的AI技術方向。
不僅如此,百度為了讓文心一言變得更強,還特意讓它“拜師”到10個行業(yè)的10位專家門下。
這些導師所涵蓋的領域也是極為廣泛,包括藝術設計、科技傳播、交通運輸、文學創(chuàng)作、醫(yī)療健康等等。
吳甜表示:
在他們的指導之下,相信“文心一言”會在相應的專業(yè)領域不斷地提升自己的能力,最終可以為大家提供出來更有思想深度和廣度的支持。
當然,讓文心一言變強,也離不開背后飛槳的支持。
飛槳再升級:搞開發(fā)門檻又降低了
在本屆WAVE SUMMIT中,飛槳開源框架也以全新的姿態(tài)現(xiàn)身——V2.6。
我們依舊是先來整體看下升級內(nèi)容。
首先在底層,飛槳夯實了高擴展性中間表示體系,可以更好地支撐更極致的性能優(yōu)化。
其次動轉(zhuǎn)靜訓練方面,飛槳做了進一步的升級,通過自適應的圖構(gòu)建技術,使得整個動轉(zhuǎn)靜的成功率大幅提升,達到了100%。
針對分布式開發(fā)困難的問題,飛槳研發(fā)了動靜統(tǒng)一的自動并行編程,開發(fā)者只需要了解張量切分,便可以輕松地開發(fā)相關的混合并行訓練代碼。
與此同時,大模型的套件也進行了全流程的優(yōu)化,從預訓練到精調(diào)、壓縮、推理、部署,全環(huán)節(jié)都得到了相應的改善。
最后,在最具挑戰(zhàn)的算力方面,飛槳也在適配方面做了相應的升級。
例如計算執(zhí)行方面,可以支持多Stream的并行算子調(diào)度;在硬件廠商進行開發(fā)方面,可以通過 “自定義加速算子” 靈活接入根據(jù)自身硬件特性定制的不同顆粒度的大算子等。
并且在結(jié)合文心大模型適配的過程當中,飛槳也進行了軟硬件協(xié)同,支持硬件廠商建設在硬件層的Transformer大算子加速庫,協(xié)助硬件廠商加速軟件棧的完善。
而基于上述的升級,百度AI技術生態(tài)總經(jīng)理馬艷軍也帶來三個“新發(fā)布”——大模型重構(gòu)開發(fā)工具鏈,帶來三大開發(fā)新范式。
第一個新發(fā)布就是Comate AutoWork——2分鐘開發(fā)一個領取Comate試用權(quán)益的程序。
簡單來說,就是開發(fā)者只需要提需求,剩下的工作都可以交給Comate AutoWork來解決。
例如我們提一個這樣的需求:
在Comate官網(wǎng)首頁增加一個按鈕叫做限時回饋,點擊這個按鈕之后彈窗展示一個領取權(quán)益的轉(zhuǎn)盤。
而后你也附上一個PRD文檔,讓Comate AutoWork更好地理解需求。
可以看到,Comate AutoWork接下來就會自動分析PRD文檔,做總結(jié)提煉等工作。
對于不清楚地方,它還會自己提問,我們所要做的就是再次對需求做說明和澄清。例如:
權(quán)益共有6個,分別是1到6個月的體驗券。
之后,AutoWork就會給出執(zhí)行計劃,并根據(jù)開發(fā)者的反饋做動態(tài)調(diào)整。
之后,AutoWork對于代碼文件還會標注出來哪些需要“修改”,方便開發(fā)者做進一步的調(diào)整。
開發(fā)者對于需要修改的文件,同樣可以用自然語言做調(diào)整;最終,開發(fā)者就可以檢查代碼、采納,并在本地做測試了。
飛槳第二個新發(fā)布,則是低代碼開發(fā)工具PaddleX升級到了2.2版本。
以字符識別為例,以往哪怕是用到了PaddleOCR,對于較復雜的文件來說,識別結(jié)果可能是這樣的:
為此,在2.2版本中,飛槳專門做了PP-ChatOCR,再次進行同樣的任務,結(jié)果就完全正確了:
馬艷軍在現(xiàn)場表示:
通過這個版本,大家就可以真實地體驗,如何把經(jīng)典的AI應用開發(fā)跟大模型能力充分結(jié)合起來,提升自己的研發(fā)效率。
在這個版本當中,PaddleX目前已經(jīng)有40多個產(chǎn)業(yè)級精選模型,覆蓋了十大AI任務,對應的相關軟件我們也支持了多款主流的硬件,方便大家在云端和本地端都能運行。
至于飛槳最后一個發(fā)布——面向生態(tài)中廣大開發(fā)者的文心一言開發(fā)機制。
星河社區(qū)用戶可以通過API和SDK使用文心大模型的基礎能力,并支持插件、多工具智能編排開發(fā),以低代碼和零代碼開發(fā)界面,實現(xiàn)AI原生應用開發(fā)。
文心一言開發(fā)機制還升級了配套開發(fā)工具、優(yōu)化注冊接入自動化流程、支撐開發(fā)者深度效果調(diào)優(yōu)、助力應用推廣,全面降低應用開發(fā)門檻。典型應用開發(fā)時間縮短40%以上,端到端效果提升30%以上。
例如我們要制作“制作全國TOP10省份常住人口隨時間動態(tài)排序的圖表”,Prompt提給文心一言是不是就能實現(xiàn)了?是的!這里還用到了文心一言插件“代碼解釋器”。
上傳一份數(shù)據(jù)后,用自然語言提出自己的需求:
查一下2003年常住人口最多的省份。
可以看到,模型會根據(jù)上述的需求自動生成相應的Python代碼。而后我們可以繼續(xù)提需求:
根據(jù)2003年到2022年常住人口排名前十的省份,生成一個動態(tài)排序的圖表。
最終,在接收到這個指令之后,我們想要的動態(tài)圖表就呈現(xiàn)出來了:
以上便是本屆WAVE SUMMIT中最為重磅的升級內(nèi)容了。
那么最后一個問題便是:
五載十屆,百度做到了什么?
首先,非常直觀的一點感受,就是百度已然通過AI技術的力量,把“搞開發(fā)”這件事情的門檻狠狠地打了下去。
縱觀第十屆WAVE SUMMIT,與開發(fā)相關的所有內(nèi)容,近乎都是通過自然語言的prompt,或者“點點點”的動作來完成。
不過很顯然的,能夠把開發(fā)門檻降低至如此,定然不會是一蹴而就的事情。
若是我們把WAVE SUMMIT五年歷程的核心鋪開來看,那么百度在AI開發(fā)的路徑便會更加清晰一些:
2019年:提出深度學習是智能時代的操作系統(tǒng);深度學習推動人工智能進入工業(yè)大生產(chǎn)階段。
2020年:打造AI新型基礎設施,云智一體加速產(chǎn)業(yè)智能化;
2021年:融合創(chuàng)新,降低門檻;
2022年:深度學習平臺加速大模型,夯實產(chǎn)業(yè)智能化基座;
2023年:大語言模型為通用人工智能帶來曙光。
雖然百度每年在WAVE SUMMIT中的“主旨”會有所變化,但從中我們也不難看出變中的“不變”——
做好人工智能時代的基礎平臺。
無論是在投入工業(yè)大生產(chǎn)階段,亦或是現(xiàn)如今人人皆可開發(fā)的大模型時代,“文心大模型+飛槳”強強聯(lián)手的模式,似乎都是在底部充當強勁馬達的角色,為上層應用的開花結(jié)果提供源源不斷的動能。
而歷屆WAVE SUMMIT著重強調(diào)的生態(tài)建設亦是如此。
其重要性正如蘋果、安卓在移動時代下的生態(tài)大戰(zhàn)一般,得生態(tài)者為王;而人工智能時代之下,技術與生態(tài)需并行的重要顯得格外突出。
或許這也正是王海峰在今年兩次的WAVE SUMMIT中都提到“文心加飛槳,翩然赴星河”的原因了,而這“星河”便是通用人工智能的星辰大海。
總而言之,百度在WAVE SUMMIT的“五載十屆”中,確實是做穩(wěn)了人工智能時代的基礎平臺。
那么在此基礎之上,在科技日新月異的未來,百度還將帶來怎樣的技術變革,是值得期待一波了。
—?完?—文章來源:http://www.zghlxwxcb.cn/news/detail-774811.html
點這里??關注我,記得標星哦~文章來源地址http://www.zghlxwxcb.cn/news/detail-774811.html
到了這里,關于百度交了份“大”作業(yè):文心一言用戶破1億,累計37億字文本創(chuàng)作,能力再升32%!...的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!