2022年,隨著AI聊天機器人GhatGPT在世界范圍內(nèi)持續(xù)火爆,極具創(chuàng)意、表現(xiàn)力、個性化且能快速迭代的AIGC技術(shù)成功破圈,成為全民討論熱點。
AIGC是指在確定主題下,由算法模型自動生成內(nèi)容,包括單模態(tài)內(nèi)容如文本、圖像、音頻、視頻以及內(nèi)容的跨模態(tài)生成,如文本生成圖片、文本生成視頻等。
AIGC應用市場空間充滿想象,多家機構(gòu)對AIGC市場規(guī)模予以樂觀估測。如Gartner預計,到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%,而目前由人工智能生成的數(shù)據(jù)占所有數(shù)據(jù)的1%不到。又如中國銀河證券測算,2025年中國AIGC市場規(guī)模有望達到1600億元。
與AIGC潛在市場空間形成對比的是,當前AIGC的商業(yè)化應用仍處于探索階段,大量“空白”市場尚待開發(fā)。在AIGC的技術(shù)棧中,基于NLP的文本生成是發(fā)展最早的技術(shù)之一,也是最早實現(xiàn)商業(yè)價值的技術(shù),目前已在機器寫作、新聞報道、對話機器人等應用場景中實現(xiàn)商業(yè)落地,而其他諸如圖片類、3D和視頻類AI生成技術(shù)尚不成熟。AIGC是大勢所趨,眾多AI公司紛紛布局AIGC市場,通過研發(fā)、推出AIGC產(chǎn)品和服務跑馬圈地,尋求新一輪發(fā)展機遇。
01? 拓爾思基于三十年累積優(yōu)勢,全面深耕AIGC
拓爾思:高質(zhì)量大模型和AI工程化能力是AIGC落地的必備條件
在眾多AIGC典型企業(yè)中,拓爾思是極具代表性的一家企業(yè)。拓爾思成立于1993年,圍繞語義智能的發(fā)展主線,自主研發(fā)相關(guān)人工智能和大數(shù)據(jù)技術(shù),以平臺和行業(yè)應用產(chǎn)品、云和數(shù)據(jù)服務相結(jié)合的“產(chǎn)品+服務”戰(zhàn)略,賦能中高端企業(yè)級客戶的數(shù)字化和智慧化轉(zhuǎn)型,核心業(yè)務涵蓋大數(shù)據(jù)、人工智能、內(nèi)容管理、網(wǎng)絡安全和數(shù)字營銷等領(lǐng)域。
拓爾思在AIGC領(lǐng)域已有長期積累。早在2011年上市時,拓爾思就以“非結(jié)構(gòu)化信息智能處理”概念表達自身定位。之后于2018年,拓爾思將NLP、知識圖譜和圖像音視頻內(nèi)容理解統(tǒng)一歸屬到“語義智能”大主題下,將語義智能作為戰(zhàn)略新定位,并在AIGC相關(guān)領(lǐng)域如機器寫作、對話式AI、內(nèi)容人機協(xié)同和自動報告生成等應用場景打造出眾多優(yōu)秀實踐案例。
在長期的AIGC落地實踐中,拓爾思基于客戶視角觀察到,AIGC的落地需要具備兩個條件:高質(zhì)量的行業(yè)大模型和AI工程化能力。
圖1:AIGC應用落地關(guān)鍵示意圖
?
1)高質(zhì)量的行業(yè)大模型
通用大模型雖然具有良好的泛化能力,但行業(yè)適配性有待提升。一方面,信息壁壘是通用大模型在垂直領(lǐng)域應用的阻礙。通用大模型的知識覆蓋面雖廣但淺,尤其在金融、政府、媒體等數(shù)據(jù)開放度低、知識獲取壁壘高的行業(yè),由于行業(yè)數(shù)據(jù)有限,通用大模型尚不具備對專業(yè)業(yè)務場景的理解能力。另一方面,當前通用大模型的推理主要是基于對語義的整合,在創(chuàng)新、洞察、深度等內(nèi)容輸出方面能力較弱。更具深度的人工智能指向具體的業(yè)務場景,也需要通過垂直行業(yè)數(shù)據(jù)訓練實現(xiàn)。
進一步,對通用大模型用行業(yè)數(shù)據(jù)訓練后生成的行業(yè)大模型,雖然具備對業(yè)務場景的理解能力,但在推理性能、推理結(jié)果的可控性上仍具有較強的不確定性,可能出現(xiàn)諸如難以理解人類指令、每次的推理結(jié)果并不唯一確定、生成的內(nèi)容不合規(guī)等狀況,模型推理質(zhì)量難以適用于對系統(tǒng)輸出結(jié)果的安全性、及時性、準確性等方面有嚴格要求的商業(yè)場景。
大模型商業(yè)化落地的基本條件是具備能精準適配下游場景任務,且保證結(jié)果高效、可控、合規(guī)的“高質(zhì)量”行業(yè)大模型。一個“高質(zhì)量”的行業(yè)大模型需要對通用大模型用行業(yè)數(shù)據(jù)進一步訓練生成行業(yè)大模型,并對行業(yè)大模型調(diào)優(yōu)實現(xiàn)。這其中,對通用大模型“再訓練”、“調(diào)優(yōu)”形成高質(zhì)量行業(yè)大模型的兩個動作,也決定了廠商必備的兩大能力:豐富的行業(yè)數(shù)據(jù)積累和大模型調(diào)優(yōu)能力。
其中,行業(yè)數(shù)據(jù)是指諸如金融、媒體、政務、醫(yī)療等特定領(lǐng)域的公開、非公開的知識、經(jīng)驗、數(shù)據(jù)。豐富的行業(yè)數(shù)據(jù)能快速提升行業(yè)大模型學習能力,并不斷拉開與后來者之間的差距,為廠商帶來先發(fā)優(yōu)勢。
大模型調(diào)優(yōu)能力是指通過Fine-tuning、Prompt-tuning、Instruction-tuning、In-context Learning、獎勵模型等多種手段使大模型的輸出結(jié)果高效、可控、合規(guī)。只有具備大模型調(diào)優(yōu)能力的廠商才能適應并滿足客戶多樣化需求。
2)AI工程化能力
在Gartner看來,AI工程化是AI大規(guī)模發(fā)展的必經(jīng)之路。雖然任何行業(yè)或企業(yè),只要有場景、數(shù)據(jù)和算力,都可以落地AI應用,但落地效率、周期會遠超預期。
這是因為AI應用在企業(yè)的落地涉及需求分析、數(shù)據(jù)準備、模型設計、模型訓練、模型部署等多個環(huán)節(jié)。以數(shù)據(jù)準備環(huán)節(jié)為例,涉及多平臺的數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)標注、數(shù)據(jù)挖掘等多項工作;模型部署環(huán)節(jié)需要綜合考量與企業(yè)軟硬件系統(tǒng)的兼容和模型運行效果。若不考慮AI工程化,完整的模型開發(fā)周期將長達幾個月到一年,難以敏捷適應業(yè)務的快速變化。
AI工程化能提供AI應用開發(fā)的系列方法、工具和實踐集合,形成快速測試、構(gòu)建和部署AI應用開發(fā)流水線,加速AI應用落地過程,實現(xiàn)模型自動重新訓練和部署。
從大模型落地進程來看,“高質(zhì)量”的行業(yè)大模型只解決了大模型“可用”的問題,若想AI成為企業(yè)的生產(chǎn)力,還需要解決大模型“落地”的工程化問題。因此,大模型“落地”對廠商的要求為,需要具備實現(xiàn)一站式端到端行業(yè)大模型訓練、部署、上線全過程的AI工程化能力。
具體地,AI工程化能力涉及兩個方面:1)通過分布式訓練提升計算效率,解決大模型大體量參數(shù)、復雜網(wǎng)絡結(jié)構(gòu)帶來的內(nèi)存、通訊以及計算瓶頸;2)實現(xiàn)模型開發(fā)過程的持續(xù)生產(chǎn)、持續(xù)交付和持續(xù)部署。一方面,需要將定制化解決方案經(jīng)驗沉淀形成標準化產(chǎn)品,實現(xiàn)產(chǎn)品與服務的規(guī)?;?,加速商業(yè)化落地效率;另一方面,也需要完善AI開發(fā)生命周期的工具、固化開發(fā)流程,提高模型開發(fā)全流程的緊耦合度,提升大模型訓練效率。
拓爾思三十年累積優(yōu)勢:海量行業(yè)數(shù)據(jù)資產(chǎn)、模型調(diào)優(yōu)經(jīng)驗和AI工程化能力
拓爾思自成立至今30年的時間中,在語義智能領(lǐng)域的長期實踐中已經(jīng)累積形成布局AIGC市場的三大優(yōu)勢:海量數(shù)據(jù)資產(chǎn)、模型可控和AI工程化能力,這為拓爾思發(fā)力AIGC市場積蓄起強大勢能。
- 海量數(shù)據(jù)資產(chǎn):拓爾思于2010年自建大數(shù)據(jù)中心,至今已經(jīng)積累了千億級數(shù)據(jù)總量,并以日均億級互聯(lián)網(wǎng)數(shù)據(jù)的速度持續(xù)增加。其中包含境內(nèi)外的超1300億條公開類資源性數(shù)據(jù)資產(chǎn),涵蓋新聞、資訊、政策、視頻、圖片、百科、社交等多模態(tài),數(shù)據(jù)總量達100TB以上;超100億條主題類資源性數(shù)據(jù)資產(chǎn),包括工業(yè)、貨幣與信貸、工業(yè)企業(yè)運行等宏觀數(shù)據(jù),產(chǎn)業(yè)政策、行業(yè)會議、產(chǎn)品信息、研究報告等中觀數(shù)據(jù),以及工商數(shù)據(jù)、經(jīng)營數(shù)據(jù)、知識產(chǎn)權(quán)等微觀數(shù)據(jù);超30個專業(yè)領(lǐng)域的知識資產(chǎn),如語義分析知識庫、專利知識庫、媒體知識庫、金融知識庫等;以及覆蓋媒體服務、輿情服務、金融風控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消保、開源情報、政務應用等8大業(yè)務場景的3萬+標簽數(shù)據(jù)。
拓爾思形成了一套完整的數(shù)據(jù)和知識工程治理體系。以上數(shù)據(jù)資源基于拓爾思自研的數(shù)據(jù)底座經(jīng)過采集、清洗、轉(zhuǎn)換、分類、打標等流程完成基礎數(shù)據(jù)治理后,被推送到媒體資訊、網(wǎng)絡輿情、產(chǎn)業(yè)大腦三大數(shù)據(jù)資產(chǎn)平臺中,再經(jīng)過與不同行業(yè)知識模型融合處理,被加工成數(shù)據(jù)資產(chǎn)進入到數(shù)據(jù)流通與交易環(huán)節(jié)。這些數(shù)據(jù)資產(chǎn)可用作大模型的訓練語料,具備高質(zhì)量、高價值的特點,有利于提升大模型的專業(yè)性與精準度。
也正是基于以上海量的專業(yè)領(lǐng)域數(shù)據(jù)資產(chǎn)以及數(shù)據(jù)和知識工程治理體系,拓爾思已經(jīng)具備350余個專業(yè)領(lǐng)域深度學習算法模型,包括NLP通用模型和專業(yè)領(lǐng)域模型,如風控征信模型、公共安全模型、指數(shù)模型等,在AIGC商業(yè)落地上已經(jīng)具備豐富的經(jīng)驗。
- 大模型調(diào)優(yōu)經(jīng)驗:拓爾思充分利用過往在NLP領(lǐng)域的工程技術(shù)積累,能基于行業(yè)場景任務對大模型進行校對和優(yōu)化,使大模型高效適配行業(yè)場景,模型推理效果滿足客戶需求。
- AI工程化能力:自成立以來的30年間,拓爾思豐富的行業(yè)大模型、機器模型的應用實踐,已經(jīng)覆蓋政務、媒體、公共安全、知識產(chǎn)權(quán)等領(lǐng)域的多種場景,并積累了豐富的AI工程經(jīng)驗,不僅能搭建分布式訓練架構(gòu),提高大模型訓練速度,還具備涵蓋數(shù)據(jù)標注、模型設計、模型訓練、模型優(yōu)化、模型評估、模型部署等一站式AI工程化落地工具和服務能力,有助于實現(xiàn)專業(yè)大模型貼合用戶場景快速落地。
AIGC生態(tài)可分為通用大模型、行業(yè)大模型和智能應用三層。以上優(yōu)勢落到AIGC生態(tài)中,使得拓爾思具備打通行業(yè)大模型和智能應用的研發(fā)能力,以及為客戶提供AIGC產(chǎn)品、服務和解決方案的能力。因此,拓爾思在AIGC的定位為深扎AIGC文本領(lǐng)域,提供自行業(yè)大模型到上層應用的一體化服務。其中,對于底層的通用大模型,拓爾思將通過生態(tài)合作的方式獲取,對于中間層具備行業(yè)知識壁壘的行業(yè)大模型以及上層的智能應用則由拓爾思自主研發(fā)實現(xiàn)。
圖2:拓爾思在AIGC生態(tài)的定位示意圖
02 拓爾思“智創(chuàng)”AIGC平臺,為客戶提供內(nèi)容生成底層能力和行業(yè)解決方案
?
也正是基于拓爾思在數(shù)據(jù)資產(chǎn)、模型可控性、AI工程化等能力上的優(yōu)勢,拓爾思已經(jīng)著手研發(fā)“智創(chuàng)”AIGC平臺,為客戶提供AIGC產(chǎn)品、服務和解決方案做準備。
“智創(chuàng)”是一款專注文字生成類的內(nèi)容自動生產(chǎn)平臺,以拓爾思長期積累的自然語言處理技術(shù)和人工智能平臺產(chǎn)品為基礎,融合開源大模型,專注于輔助型、應用型、創(chuàng)作型等文本內(nèi)容的自動生成。
圖3:拓爾思“智創(chuàng)”AIGC平臺架構(gòu)圖
?
“智創(chuàng)”的系統(tǒng)架構(gòu)分為模型層、能力層、功能層和服務層四層。底層的模型層以拓爾思“智拓”人工智能平臺為主,平臺上積累了拓爾思30年來在不同領(lǐng)域不同場景下沉淀的文本和視覺模型資產(chǎn),包括開源模型、自研模型。如文本模型中包括BERT模型、TS模型、BART模型、GLM模型等等。
能力層分為兩個板塊,“智語”和“智眼”。其中“智語”主要進行自然語言處理,具有智能增強、智能轉(zhuǎn)譯、語義理解等能力;“智眼”基于機器視覺對圖像、視頻進行處理,提供智能識別、基于模仿創(chuàng)作、基于概念創(chuàng)作等能力。
功能層是對場景的進一步細化,如在文本領(lǐng)域包括文本續(xù)寫、文本摘要、文案生成、詩歌創(chuàng)作、情感改寫等;在視覺領(lǐng)域,提供風格改寫、圖文生成、圖文協(xié)同、關(guān)鍵詞創(chuàng)作等。
服務層是拓爾思在不同領(lǐng)域的落地,如媒體領(lǐng)域的文案生成、輔助創(chuàng)作,政府領(lǐng)域的公文寫作,金融領(lǐng)域的報告生成等,是落地的行業(yè)解決方案。
在客戶側(cè),“智創(chuàng)”平臺提供多種服務模式。如針對服務層的客戶提供打包的解決方案,針對功能層的客戶可通過API接口調(diào)用的方式集成,支持云平臺調(diào)用和私有化部署。
03? 拓爾思正實現(xiàn)豐富的AIGC應用場景落地
拓爾思AIGC技術(shù)核心圍繞輔助性、創(chuàng)作型文本內(nèi)容展開,在“智創(chuàng)”平臺的加持下,已在政務、媒體、金融、元宇宙等多個領(lǐng)域的多樣化場景中實現(xiàn)落地。
政務:結(jié)構(gòu)化公文寫作的輔助創(chuàng)作
在政務領(lǐng)域,拓爾思的機器寫作可輔助公務人員提高公文寫作效率。在公文寫作中,部分諸如業(yè)務數(shù)據(jù)、單位名稱、相關(guān)政策、份號、發(fā)文字號、發(fā)文機關(guān)等要素相對固化的內(nèi)容,業(yè)務人員在寫作時,仍需要查閱歷史發(fā)文、政策法規(guī)、業(yè)務數(shù)據(jù)和關(guān)聯(lián)機構(gòu)等素材,而這些素材分散在各個系統(tǒng)中,查找起來費時費力。針對公文寫作中常規(guī)固化的內(nèi)容,拓爾思機器寫作可基于過往的公文樣例、模板進行自動生成,而對于公文中營商環(huán)境、政府意識等個性化內(nèi)容,再由業(yè)務人員創(chuàng)作完成。
此外,拓爾思也將持續(xù)落地政務領(lǐng)域的政民互動服務、政務新媒體的創(chuàng)新應用、政策大腦的摘要/數(shù)據(jù)解讀等應用場景。
媒體:知識型搜索引擎
在媒體領(lǐng)域,拓爾思通過知識型搜索引擎提高編輯人員寫作效率。對于媒體領(lǐng)域的編輯、記者來說,一篇好文章是需要通過深入調(diào)研、持續(xù)求證才能獲得的,而媒體自身的新聞數(shù)據(jù)庫和歷史資料庫就是其中可求證的重要途徑之一。實際工作中,由于一個主題的內(nèi)容可能分布在不同系統(tǒng),且以文字、語音、視頻等不同的內(nèi)容形式呈現(xiàn),資料收集過程需要耗費大量時間。拓爾思可基于自身的NLP搜索能力與媒體合作,將媒體的新聞數(shù)據(jù)庫和歷史資料錄入大模型做預訓練,基于高針對性交互,形成權(quán)威且高效的內(nèi)容輸出,打造供媒體內(nèi)部使用的知識型搜索引擎。知識搜索引擎可實現(xiàn)對媒體資料庫的高維搜索,承擔采訪助手、輔助創(chuàng)作的角色。如針對歷屆兩會中的教育內(nèi)容,知識搜索引擎可自動整理相關(guān)內(nèi)容給予完整呈現(xiàn),為編輯人員提供充分的信息輸入。
除知識搜索引擎外,在媒體領(lǐng)域,拓爾思還將持續(xù)關(guān)注機器人寫稿、基于媒體大數(shù)據(jù)的自動報告生成(如熱點輿情報告、傳播力報告和榜單生成等)、多模態(tài)的自動配圖(基于文本的圖片、視頻生成)等方向,豐富媒體創(chuàng)作工具。
元宇宙:聚焦數(shù)字人的智能問答和內(nèi)容播報功能
在元宇宙方面,拓爾思基于語音語義識別、自圖譜構(gòu)建到運營的全鏈路知識圖譜能力及豐富行業(yè)經(jīng)驗,讓數(shù)字人具備知識儲備、語義理解、推理分析、自主決策和交互表達能力,聚焦智能問答、內(nèi)容播報兩大方向,在各領(lǐng)域扮演具有專業(yè)知識的多種角色,如智能客服、合同智能審批、智能問答、直播帶貨等。
金融:研報摘要自動生成
拓爾思將深耕金融領(lǐng)域的自動報告生成(企業(yè)報告、產(chǎn)業(yè)報告等)、證券研報的智能解讀和摘要生成、上市公司的信息檢索等細分場景。
04 順應AIGC發(fā)展大勢,拓爾思錨定文本生成領(lǐng)域,行穩(wěn)致遠
2023年AIGC的火爆僅是AIGC市場飛速發(fā)展的開端,未來人們將見證層出不窮的AIGC技術(shù)和應用創(chuàng)新。單以內(nèi)容生成這一視角切入,未來AIGC將迎來縱向質(zhì)量和橫向多模態(tài)的巨大飛躍。
縱向來看,基于AIGC技術(shù)的內(nèi)容生成質(zhì)量將持續(xù)迭代。當前落地形式以機器輔助生成為主,未來的商業(yè)化將以機器全自動生成為主,向更智能、生成質(zhì)量更高、更有創(chuàng)作性的方向持續(xù)優(yōu)化。
橫向來看,不同于當前以文本、語音、視頻等單模態(tài)生成內(nèi)容為主,未來AIGC內(nèi)容將以融合文本、語音、視頻等多模態(tài)內(nèi)容生成為主,跨模態(tài)內(nèi)容生成更普遍。
圖4:AIGC內(nèi)容演進示意圖
?
拓爾思將瞄準AIGC領(lǐng)域發(fā)展趨勢,前瞻性地開展業(yè)務布局。一方面,在內(nèi)容質(zhì)量上,拓爾思基于通用AIGC大模型,全力投入行業(yè)大模型的研發(fā)。以預訓練大模型、In-Context Learning、Instruction-tuning等技術(shù)為基礎,重點研發(fā)大模型與外部知識庫的融合、小樣本學習、交互式生成等功能,提升行業(yè)大模型對專業(yè)場景的適配性,實現(xiàn)機器全自動生成能力。另一方面,在內(nèi)容模態(tài)呈現(xiàn)上,拓爾思在聚焦文本模型的基礎上,將持續(xù)拓展視覺模型,在跨模態(tài)內(nèi)容生成方面持續(xù)發(fā)力。文章來源:http://www.zghlxwxcb.cn/news/detail-488958.html
AIGC將成為拓爾思“大展拳腳”、開拓發(fā)展新航路的新起點。拓爾思將錨定文本生成領(lǐng)域自行業(yè)大模型到上層應用的一體化服務,為B端G端客戶提供高質(zhì)量服務,持續(xù)探索C端市場,完善NLP商業(yè)生態(tài),與行業(yè)知識專家、平臺型企業(yè)、行業(yè)頭部企業(yè)等各方參與者一起馳騁廣闊的藍海市場。文章來源地址http://www.zghlxwxcb.cn/news/detail-488958.html
到了這里,關(guān)于開啟新航路,拓爾思發(fā)力AIGC市場 | 愛分析調(diào)研的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!