?夕小瑤科技說 原創(chuàng)
?作者 | 賣萌醬
文心一言的這波更新,是真的殺瘋了。
筆者測(cè)試了剛剛更新的文心一言,發(fā)現(xiàn)效果相比上一版又有了一個(gè)質(zhì)的飛躍,內(nèi)容創(chuàng)作、推理、代碼等諸多維度的能力都有了肉眼可見的效果提升。
更加王炸的是,文心一言領(lǐng)先國(guó)內(nèi)一眾競(jìng)品,率先來到生態(tài)位奇點(diǎn),正式發(fā)布了文心一言插件和集AI應(yīng)用開發(fā)、部署、交流于一體的大模型社區(qū)。
作為AI開發(fā)者,從此不必再羨慕隔壁的Discord社區(qū)和ChatGPT插件生態(tài)了。
今天之后,我們終于可以基于比ChatGPT更強(qiáng)大的國(guó)產(chǎn)大模型,比Pytorch更快更穩(wěn)的國(guó)產(chǎn)框架底座,去開發(fā)服務(wù)國(guó)人的大模型插件和大模型應(yīng)用了!
昨日,筆者跟小伙伴一起參加了百度舉辦的WAVE SUMMIT 2023深度學(xué)習(xí)開發(fā)者大會(huì),會(huì)上,百度CTO王海峰等多位高管從AI的發(fā)展趨勢(shì)、大模型的技術(shù)應(yīng)用、框架的生態(tài)布局和AI原生應(yīng)用等角度闡述了?“我們將迎來怎樣的AI原生時(shí)代” 。
?大模型研究測(cè)試傳送門
GPT-4傳送門(免墻,可直接測(cè)試,遇瀏覽器警告點(diǎn)高級(jí)/繼續(xù)訪問即可):
Hello, GPT4!
而作為AI開發(fā)人員,筆者也自去年ChatGPT發(fā)布后就一直在思考:
通用大模型解決了所有問題嗎?
除了大模型插件,我們還需要什么?
大模型時(shí)代,算法工程師該怎樣開發(fā)AI應(yīng)用?
解決AI任務(wù)的最快路徑不再是大量標(biāo)注數(shù)據(jù)+大量模型訓(xùn)練了,那么,怎樣的開發(fā)套件能最適合新的開發(fā)范式?
大模型這么重,部署成本極高、推理速度挑戰(zhàn)極大,普通人開發(fā)的AI應(yīng)用又將如何面向大量用戶提供服務(wù)?
在這場(chǎng)發(fā)布會(huì)后,筆者心中的答案清晰了很多。
人類之所以強(qiáng)大,不僅是因?yàn)槿祟惵斆鳎匾氖侨祟悓W(xué)會(huì)了制作工具、使用工具來拓展自己的能力。
同樣的,通用大模型是AI原生時(shí)代的大腦,它無法解決所有的問題,但當(dāng)通用大模型的指令理解能力、思維鏈推理能力、信息整合能力優(yōu)化到足夠強(qiáng)之后,便具備了“使用工具”擴(kuò)展自身能力的可能性。
而最新版的文心一言,就在國(guó)內(nèi)大模型中絕對(duì)領(lǐng)先,能力率先優(yōu)化到了足以掌握工具使用的水平。如今,新版的文心一言已經(jīng)熟練掌握超過200個(gè)創(chuàng)作體裁,內(nèi)容豐富度是初期的1.6倍、思維鏈長(zhǎng)度是初期的2.1倍,知識(shí)點(diǎn)覆蓋是初期的8.3倍。
于是,文心一言有了“插件”的概念,開始了邀測(cè),并于昨日的WAVE SUMMIT發(fā)布會(huì)上重磅推出了自己的插件生態(tài),同時(shí)發(fā)起了開發(fā)者共創(chuàng)生態(tài)的號(hào)召。
“插件時(shí)代”來了
筆者有幸拿到了文心一言當(dāng)前內(nèi)置的全部5個(gè)官方原生插件的內(nèi)測(cè),包括覽卷文檔(長(zhǎng)文檔分析、摘要、潤(rùn)色、改寫等)、E言易圖(數(shù)據(jù)洞察圖表生成)、說圖解畫(基于圖片的交互)、一鏡流影(文字轉(zhuǎn)視頻)和百度搜索:
話不多說,一起來隨筆者感受下官方原生插件的驚艷!
一鏡流影——文字轉(zhuǎn)視頻
我們知道,做一個(gè)品牌營(yíng)銷視頻是一件商業(yè)價(jià)值很高,但同時(shí)也是難度很大、流程繁瑣、非常耗時(shí)的工作。于是,筆者果斷選擇了難度最大的一鏡流影(文字轉(zhuǎn)視頻)插件進(jìn)行測(cè)試。
比如,我們讓文心一言生成一個(gè)推廣牛奶品牌“鮮草之源”的營(yíng)銷視頻:
文生視頻
這個(gè)效果,讓筆者徹底驚住了。
什么?原來做視頻已經(jīng)是門檻這么低的事情了嗎?而且還是一個(gè)從畫面、文案到配音都挑不出毛病的品牌營(yíng)銷視頻!
筆者也體驗(yàn)過ChatGPT的生態(tài)下的一些文生視頻的插件,但發(fā)現(xiàn)普遍偏玩具級(jí),難以生成真正有用的視頻。但百度文心一言官方出品的這個(gè)文生視頻的插件,著實(shí)讓筆者驚艷住了。
不得不說,官方y(tǒng)yds。。。
說圖解畫——看圖說話
說圖解畫插件的效果也非常驚艷。比如筆者上傳了一張《火影忍者》動(dòng)漫角色宇智波佐助的劇圖,文心一言說圖解畫插件不僅可以精準(zhǔn)的認(rèn)出佐助,而且給出了非常到位的人物描述。
除此之外,還有E言易圖(數(shù)據(jù)洞察圖表生成),以及早期開始內(nèi)測(cè)的百度搜索和覽卷文檔插件。
而現(xiàn)在,不止官方插件,昨天文心一言還正式啟動(dòng)了大模型插件開發(fā)的邀請(qǐng)測(cè)試,并向廣大開發(fā)者提供了插件開發(fā)工具集。開發(fā)者可以自由進(jìn)行信息服務(wù)類、工具類、基于大語(yǔ)言模型創(chuàng)新類等各種類型的插件開發(fā)了。
當(dāng)然,如果你覺得單純的開發(fā)插件、為大模型拓展能力邊界不夠過癮,那么,我相信這次WAVE SUMMIT上重磅發(fā)布的“星河大模型社區(qū)”一定會(huì)讓你眼前一亮。
星河大模型社區(qū):承載AI原生應(yīng)用的爆發(fā)
飛槳開發(fā)者社區(qū)AI Studio中文名是“星河社區(qū)”,寓意“文心加飛槳,翩然赴星河”。說起AI Studio,相信很多讀者小伙伴都不陌生了,它已是中國(guó)最大的AI開發(fā)者社區(qū),凝聚了609萬個(gè)開發(fā)項(xiàng)目。
如今,AI Studio進(jìn)行了全新升級(jí),正式推出星河大模型社區(qū)。百度希望和所有的開發(fā)者一起,在飛槳和文心的加持下,共建星河社區(qū),共赴通用人工智能的星辰大海。
星河大模型社區(qū)不僅提供了豐富的功能方便開發(fā)者進(jìn)行交流,而且面向AI開發(fā)者推出了一體化的大模型開發(fā)體驗(yàn),目前上線的大模型創(chuàng)意應(yīng)用已達(dá)到300多個(gè)!
老規(guī)矩,先放傳送門:
https://aistudio.baidu.com/community
圍繞大模型應(yīng)用開發(fā),星河大模型社區(qū)展開了非常豐富的功能。進(jìn)到首頁(yè),能看到“頻道”、“應(yīng)用”和“創(chuàng)意坊”三個(gè)子欄。
你可以進(jìn)到感興趣的頻道,與志同道合的小伙伴交流大模型開發(fā)和使用心得。你可以作為普通用戶,在頻道內(nèi)向廣大的開發(fā)者發(fā)需求,求幫助,也可以主動(dòng)分享你的開發(fā)成果推薦給頻道內(nèi)的用戶使用。
而在應(yīng)用欄,則可以看到大量的炫酷大模型應(yīng)用。目前星河大模型社區(qū)的開發(fā)者模式還處在邀測(cè)階段,已經(jīng)上線了300多個(gè)有趣或?qū)嵱玫膭?chuàng)意應(yīng)用。
作為開發(fā)者,你更可以直接在應(yīng)用欄點(diǎn)擊右上角創(chuàng)建應(yīng)用。
比如我們進(jìn)到應(yīng)用創(chuàng)建頁(yè),選中AI對(duì)話類型,嘗試創(chuàng)建一只嚶嚶怪。
創(chuàng)建完成后,你便可以與自己剛創(chuàng)建的應(yīng)用進(jìn)行對(duì)話調(diào)試,符合預(yù)期后,便可以發(fā)布你的對(duì)話應(yīng)用,分享給社區(qū)里的其他小伙伴了。
應(yīng)用發(fā)布后,便可以在社區(qū)的應(yīng)用頁(yè)找到你發(fā)布的應(yīng)用了。其他用戶可以直接訪問你的應(yīng)用,體驗(yàn)相應(yīng)的功能,甚至還可以通過類似github fork的方式補(bǔ)充提示詞,進(jìn)行二次效果優(yōu)化。
需要注意的是,盡管本文演示的應(yīng)用較為簡(jiǎn)單,但星河大模型社區(qū)支持的開發(fā)維度遠(yuǎn)不止prompt工程,你還可以外接知識(shí)庫(kù),甚至未來還會(huì)支持模型微調(diào)等,將充分打開大模型應(yīng)用開發(fā)的想象力。
此外,星河大模型社區(qū)還有一個(gè)相當(dāng)炸裂的“隱藏能力”——底層依托于強(qiáng)大的飛槳框架和雄厚的算力池,自動(dòng)幫開發(fā)者實(shí)現(xiàn)了高效率、高并發(fā)的模型推理支持。
也就是說,作為AI開發(fā)者,你可以將你的絕大部分注意力完全聚焦在應(yīng)用創(chuàng)意層面,無需過多擔(dān)心底層的技術(shù)優(yōu)化和算力問題了!
過硬的底層技術(shù),全新發(fā)布的飛槳開源框架v2.5
“無需擔(dān)心底層”是每個(gè)AI應(yīng)用開發(fā)者的終極夢(mèng)想,但真正能做到位的AI開發(fā)套件其實(shí)很少。
已經(jīng)凝聚起800萬開發(fā)者、22萬企業(yè)和80萬模型的百度飛槳,在這個(gè)問題上是當(dāng)仁不讓的業(yè)界典范。
訓(xùn)練速度慢、推理效率低、算力不夠用等問題,被很多普通的大模型AI應(yīng)用開發(fā)者深深困擾。
如今,全新發(fā)布的飛槳開源框架v2.5顯然已經(jīng)成為了大模型時(shí)代算法工程師手中的開發(fā)利器。
“文心大模型的訓(xùn)練速度達(dá)到優(yōu)化前的三倍,推理速度相比初版已提升30倍”
這個(gè)數(shù)字的背后,則是飛槳框架從硬件、網(wǎng)絡(luò)通信到中間件再到框架層的全鏈路深度優(yōu)化,是飛槳自研的端到端自適應(yīng)混合并行訓(xùn)練技術(shù)、模型壓縮、推理、服務(wù)部署協(xié)同優(yōu)化后的結(jié)果。
在大模型訓(xùn)練方面,飛槳與文心聯(lián)合優(yōu)化的實(shí)踐中,百度總結(jié)了大模型性能優(yōu)化方法論:
-
與硬件集群協(xié)同優(yōu)化,提升有效訓(xùn)練時(shí)間占比。對(duì)于長(zhǎng)時(shí)間、高負(fù)荷的大模型訓(xùn)練而言,降低訓(xùn)練集群的故障率和訓(xùn)練恢復(fù)成本無疑是至關(guān)重要的。在這一點(diǎn)問題上,新版的飛槳框架做了大量的工作,包括做異常硬件的檢測(cè),通信的初始化,以及異步參數(shù)耗時(shí)的優(yōu)化等,有效減少了集群的故障。與此同時(shí),出現(xiàn)故障后,還能夠做到快速自動(dòng)恢復(fù)。
-
與芯片/存儲(chǔ)/網(wǎng)絡(luò)協(xié)同優(yōu)化,提升訓(xùn)練吞吐速度。這也是飛槳一直以來持續(xù)優(yōu)化的方向。在這個(gè)維度上,飛槳框架充分發(fā)揮了計(jì)算硬件單機(jī)基礎(chǔ)的數(shù)據(jù)潛能,集成了數(shù)據(jù)讀取、混合精度、選擇性重復(fù)計(jì)算等計(jì)算策略,以及算子優(yōu)化等方法,把計(jì)算的潛能充分地發(fā)揮出來。此外,還大幅提升了分布式的擴(kuò)展效率,這里面又涉及到多維混合并行策略,通信和計(jì)算的異步調(diào)度,以及流水線調(diào)度等一系列底層技術(shù) 。
-
與模型算法協(xié)同優(yōu)化,提高收斂效率。特別是在大模型訓(xùn)練中,優(yōu)化收斂效率和穩(wěn)定性,可大幅度減少訓(xùn)練時(shí)間,達(dá)到事半功倍的效果。
而在推理部署階段,更是延展開了一系列的優(yōu)化策略。
-
強(qiáng)大的模型壓縮、量化方法。大模型的前向計(jì)算過程中,激活分布常常面臨異常值比較大的問題。這導(dǎo)致量化的時(shí)候挑戰(zhàn)非常大。對(duì)此,飛槳提出了Shift-Smooth Quant方法,這個(gè)方法,可以讓整個(gè)量化損失可以得到大幅減小,相應(yīng)的整個(gè)模型效果也會(huì)得到提升。
-
迭代生成Token Generation的優(yōu)化。我們知道現(xiàn)在主流的大語(yǔ)言模型都是自回歸模型,涉及到的迭代生成Token Generation的階段是顯著的訪存密集型場(chǎng)景。對(duì)此,飛槳在這個(gè)階段做了深入的混合量化,使得大模型的效果在訪存受限的場(chǎng)景下也會(huì)更好。
-
prompt變長(zhǎng)輸入的處理。在prompt輸入端,飛槳也做了深入優(yōu)化。由于模型的輸入是變長(zhǎng)的,一個(gè)batch內(nèi)的樣本長(zhǎng)度分布可能差異很大。對(duì)此,飛槳針對(duì)這個(gè)變長(zhǎng)率先推出了動(dòng)態(tài)插入的批處理技術(shù),通過這個(gè)技術(shù)就可以更好地提升GPU的資源利用率,根據(jù)這個(gè)動(dòng)態(tài)變化做好服務(wù)的調(diào)度。
除此之外,還有飛槳發(fā)起的硬件生態(tài)共創(chuàng)計(jì)劃,與硬件伙伴實(shí)現(xiàn)聯(lián)合優(yōu)化,才是一個(gè)大模型能夠?qū)崿F(xiàn)極限推理性能的保障。
通過這些硬核的底層技術(shù)支撐,得以構(gòu)成了支撐大模型研發(fā)的大模型套件。真正用過飛槳開發(fā)套件的開發(fā)者不難發(fā)現(xiàn),飛槳系的開發(fā)套件相對(duì)于學(xué)術(shù)界流行的Hugging Face PEFT等同類工具,其性能會(huì)有更大的領(lǐng)先優(yōu)勢(shì)。
說到這里,你可能想問,飛槳升級(jí)這么大,文心一言也升級(jí)這么大,作為開發(fā)者的我們,開發(fā)范式是不是也該升級(jí)一下了?
Comate
沒錯(cuò),在Coding問題上,這次WAVE SUMMIT還重磅發(fā)布了智能編程助手ComateX和Comate Stack工具套件,實(shí)現(xiàn)了代碼解釋、代碼生成、行間注釋生成、單元測(cè)試用例等能力。
話不多說,直接上Demo:
comate x,
由于最新發(fā)布的“文心一言”,代碼能力提升幅度相當(dāng)大,Comate系列產(chǎn)品也迎來如此大幅的升級(jí)版。
它能夠在代碼研發(fā)的全周期做到幫你想、幫你寫和幫你改。不僅能做代碼生成、解釋,甚至還能自動(dòng)生成注釋、單元測(cè)試、文檔、命令行和接口等。目前已經(jīng)支持了30多種編程語(yǔ)言和10多種IDE,甚至包括一些非常小眾的編程語(yǔ)言。
如今,Comate產(chǎn)品已經(jīng)在百度內(nèi)部廣泛使用,有超過100家合作伙伴,處于成熟商業(yè)化階段。ComateX現(xiàn)已面向企業(yè)開發(fā)者開放,登陸Comate官網(wǎng)申請(qǐng)?jiān)囉?
???https://comate.baidu.com/
或關(guān)注文心大模型或飛槳paddle paddle公眾號(hào),回復(fù)「Comate?」申請(qǐng)。
聽完這場(chǎng)硬核的WAVE SUMMIT發(fā)布會(huì),筆者只能說:
中國(guó)的AI原生時(shí)代已至!
最后,貼上昨日WAVE SUMMIT上百度CTO王海峰的一張PPT:
未來,這張圖,這句詩(shī),或許會(huì)成為中國(guó)版AI原生時(shí)代的高度概括。文章來源:http://www.zghlxwxcb.cn/news/detail-672040.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-672040.html
到了這里,關(guān)于文心一言殺瘋了!大模型社區(qū)、插件系統(tǒng)來了,碼農(nóng)神器發(fā)布,AI原生時(shí)代降臨的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!