一、前言
最近有幸參加了由中國圖象圖形學(xué)學(xué)會(huì)(CSIG)主辦,合合信息、CSIG文檔圖像分析與識(shí)別專業(yè)委員會(huì)聯(lián)合承辦的“CSIG企業(yè)行——走進(jìn)合合信息”的分享會(huì),這次活動(dòng)以“圖文智能處理與多場景應(yīng)用技術(shù)展望”為主題,聚焦圖像文檔處理中的結(jié)構(gòu)建模、底層視覺技術(shù)、跨媒體數(shù)據(jù)協(xié)同應(yīng)用、生成式人工智能及對(duì)話式大型語言模型等熱門話題,特邀來自上海交大、復(fù)旦、廈門大學(xué)、中科大的知名高校的學(xué)者與合合信息技術(shù)團(tuán)隊(duì)一道,以直播的形式分享文檔處理實(shí)踐經(jīng)驗(yàn)及NLP發(fā)展趨勢,探討ChatGPT與文檔處理未來。經(jīng)過此次會(huì)議,讓我對(duì)AI圖像、文檔處理方面有了更深刻的理解,下面聊聊我的一些感悟和想法。
二、感悟分享
1)生成式人工智能將在未來成為主流
會(huì)議開始,來自上海交大的楊小康教授帶來了他的報(bào)告《生成式人工智能與元宇宙》
生成式人工智能這個(gè)詞對(duì)于非AI領(lǐng)域的同學(xué)一定很陌生,但它就在我們身邊,這里給大家簡單說明一下:
我們熟知的通過AI進(jìn)行圖像識(shí)別、垃圾郵件檢測、數(shù)據(jù)預(yù)測、自動(dòng)駕駛等這些都屬于分析或決策式的人工智能,我們給機(jī)器大量的數(shù)據(jù),建立學(xué)習(xí)模型,讓它們能夠比人類更高效精準(zhǔn)的完成一些任務(wù)。而生成式人工智則是進(jìn)行“創(chuàng)造”,通過從數(shù)據(jù)中學(xué)習(xí)要素,進(jìn)而生成全新的、原創(chuàng)的內(nèi)容或產(chǎn)品,它不僅能夠?qū)崿F(xiàn)傳統(tǒng)AI的分析、判斷、決策功能,還能夠?qū)崿F(xiàn)傳統(tǒng)AI力所不及的創(chuàng)造性功能,如今大火的ChatGPT、AIGC都屬于生成式人工智能,2021年4月,英偉達(dá)公司創(chuàng)始人兼首席執(zhí)行官黃仁勛的演講會(huì)就有15秒的視頻通過生成式人工智能合成的:
楊小康教授在會(huì)議中首先分享了他們對(duì)元宇宙和生成式人工智能發(fā)展趨勢和價(jià)值:
然后介紹他們?cè)诹黧w現(xiàn)象模擬推理、物理環(huán)境持續(xù)預(yù)測學(xué)習(xí)、強(qiáng)化學(xué)習(xí)中世界模型表征解耦、虛擬數(shù)字人重建與驅(qū)動(dòng)等方面的生成式人工智能取得成果:
并表示,目前的生成式人工智能還存在解空間巨大、宏觀一致性差、微觀清晰度受限等問題,需要通過數(shù)學(xué)、物理、信息論、腦認(rèn)知、計(jì)算機(jī)等學(xué)科交叉研究,進(jìn)一步夯實(shí)生成式人工智能的基礎(chǔ)理論,通過“物理+數(shù)據(jù)”聯(lián)合驅(qū)動(dòng), “虛擬+現(xiàn)實(shí)”深度融合,助力科學(xué)發(fā)現(xiàn)的加速。
隨著人工智能技術(shù)的飛速發(fā)展,生成式AI仿佛一股清流般涌入了人類的日常生活,充滿創(chuàng)造力的新世界就此呈現(xiàn)在我們的眼前。
據(jù)國際IT研究機(jī)構(gòu)Gartner預(yù)測,到2025年,生成式人工智能產(chǎn)生的數(shù)據(jù)將占據(jù)人類全部數(shù)據(jù)的10%??梢悦黠@的看到,生成式人工智能技術(shù)正加速數(shù)字經(jīng)濟(jì)的發(fā)展,生成型人工智能已經(jīng)成為一個(gè)重要的研究領(lǐng)域,因?yàn)樗軌驈浐衔锢硎澜绾蛿?shù)字領(lǐng)域之間的差距。它的重要性在于它能夠?qū)F(xiàn)實(shí)世界中的結(jié)構(gòu)、操作和規(guī)則映射到計(jì)算機(jī)模型中,從而使計(jì)算機(jī)能夠模仿人類的行為。此外,它在各個(gè)行業(yè)的應(yīng)用表明了它改變我們生活的潛力。展望未來,這一領(lǐng)域的研究可能會(huì)集中于“新智能”模型,如轉(zhuǎn)移學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和貝葉斯優(yōu)化,以及基于大數(shù)據(jù)和無監(jiān)督學(xué)習(xí)技術(shù)的應(yīng)用。
我很贊成楊小康教授的一個(gè)觀點(diǎn)就是:生成式人工智能是構(gòu)建元宇宙的一個(gè)可行的途徑。而且在不久的將來,以“識(shí)別——分析”為代表的判別式人工智能將被“合成——重建”為代表的生成式人工智代替而成為主流。
另外,復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授邱錫鵬也對(duì)ChapGPT大語言模型的關(guān)鍵技術(shù)進(jìn)行了深度剖析,他從大規(guī)模預(yù)訓(xùn)練語言模型帶來的變化、ChatGPT 的關(guān)鍵技術(shù)及其局限性等角度深入地介紹了大規(guī)模語言模型的相關(guān)知識(shí):
也指出了ChatGPT目前最大的問題之一:作為大型語言模型,它無法實(shí)時(shí)與外部世界互動(dòng),也無法利用如計(jì)算器,數(shù)據(jù)庫,搜索引擎等外部工具,導(dǎo)致它的知識(shí)也相對(duì)落后,而未來它更應(yīng)該做到提高適時(shí)性、即時(shí)性、無害等等??偟膩碚f,如果將 LLM 作為智能體本身,能夠與外部交互之后,這些模型的能力一定會(huì)有更大的提升!
隨著 ChatGPT的大火,很多公司和組織都跟風(fēng),推出類似的聊天機(jī)器人產(chǎn)品。這也證明了大家認(rèn)可聊天機(jī)器人技術(shù)的可行性和潛力,也讓人們看到了聊天機(jī)器人在未來的巨大市場和應(yīng)用前景。
2)文檔圖像處理方向的AI應(yīng)用還存在巨大的挑戰(zhàn),但也有巨大的行業(yè)前景和價(jià)值
我們經(jīng)常提到的圖像超分辨率、去模糊、去噪、破損圖像恢復(fù)等都屬于底層視覺應(yīng)用的范疇,底層視覺的特征非常明顯:輸入是圖像,輸出也是圖像。比如:圖像預(yù)處理、濾波、恢復(fù)和增強(qiáng)等:
近年來,隨著人工智能、深度學(xué)習(xí)技術(shù)的快速發(fā)展以及在高層視覺任務(wù)上的出色表現(xiàn),將其應(yīng)用到底層視覺任務(wù)上的工作也逐漸涌現(xiàn)出來。然后面臨的問題卻很多,效果也不太理想。
來自上海交通大學(xué)的模式識(shí)別與智能系統(tǒng)博士,合合信息圖像算法研發(fā)總監(jiān)郭豐俊表示:底層視覺的理論和方法在眾多領(lǐng)域都有著廣泛的應(yīng)用,如手機(jī)、醫(yī)療圖像分析、安防監(jiān)控等。重視圖像、視頻內(nèi)容質(zhì)量的企業(yè)、機(jī)構(gòu)不能不關(guān)注底層視覺方向的研究。如果底層視覺沒做好,很多 high-level 視覺系統(tǒng)(如檢測、識(shí)別、理解)無法真正落地??戳怂槍?duì)目前底層視覺技術(shù)在處理形變、模糊、陰影遮蓋、背景雜亂的文檔時(shí)遇到的典型問題,就公司技術(shù)團(tuán)隊(duì)在智能圖像處理技術(shù)模塊、融合技術(shù)典型應(yīng)用、圖像安全領(lǐng)域等領(lǐng)域的研究成果進(jìn)行的分享后我深表贊同。
之后他介紹了合合信息智能文檔處理技術(shù)基于對(duì)圖像目標(biāo)區(qū)域的精準(zhǔn)裁剪,對(duì)彎曲、傾斜透視的頁面進(jìn)行形變矯正,在去除陰影、摩爾紋后,通過人工智能技術(shù)對(duì)文檔圖像進(jìn)行增強(qiáng)銳化和清晰度提升,能達(dá)到“圖像質(zhì)量增強(qiáng)”的效果,在改善閱讀體驗(yàn)的同時(shí),也提升了識(shí)別轉(zhuǎn)換、圖像分析等文檔處理下游任務(wù)的質(zhì)效,相關(guān)技術(shù)已通過“掃描全能王”等智能文字識(shí)別產(chǎn)品,服務(wù)全球上百個(gè)國家和地區(qū)的上億用戶:
去年我也使用過合合科技的PS檢測合摩爾紋去除等服務(wù),效果都很不錯(cuò),特別是PS檢測上,這一直是很多行業(yè)迫切需要解決的難點(diǎn),特別是在保險(xiǎn)、金融、銀行等領(lǐng)域,如果將虛假篡改過的信息資料審核通過可能會(huì)帶來巨大的影響甚至是經(jīng)濟(jì)上的損失:
會(huì)議中,來自中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程實(shí)驗(yàn)室副教授杜俊做的文字識(shí)別工作也驚艷到了我。
如果僅僅是標(biāo)準(zhǔn)字體的圖文識(shí)別,那相對(duì)來說很簡單,但在很多現(xiàn)實(shí)場景中,字不一定會(huì)以規(guī)范的印刷體的形式出現(xiàn),這就給字的識(shí)別帶來了挑戰(zhàn),比如學(xué)生作業(yè)及試卷的錯(cuò)別字檢測,醫(yī)囑識(shí)別等場景,如果能夠通過自動(dòng)化代替人工來做的話會(huì)對(duì)效率的提升和數(shù)據(jù)匯總分析等是特別有價(jià)值的。
杜俊教授的團(tuán)隊(duì)創(chuàng)建了一套基于部首的漢字識(shí)別、生成與評(píng)測系統(tǒng),因?yàn)榕c整字建模相比,部首的組合要少得多:
其中,識(shí)別與生成是聯(lián)合優(yōu)化的,這有點(diǎn)像學(xué)生學(xué)習(xí)時(shí)識(shí)字與寫字互相強(qiáng)化的過程。評(píng)測的工作以往大多聚焦在語法層面,而杜俊的團(tuán)隊(duì)設(shè)計(jì)了一種可以直接從圖像中找出錯(cuò)別字并詳細(xì)說明錯(cuò)誤之處的方法。這種方法在智能閱卷等場景中將非常有用。
除了文本之外,表格的識(shí)別與處理其實(shí)也是一大難點(diǎn),因?yàn)槟悴粌H要識(shí)別里面的內(nèi)容,還要理清這些內(nèi)容之間的結(jié)構(gòu)關(guān)系,而且有些表可能連線框都沒有。為此,杜俊團(tuán)隊(duì)基于SEM的表格結(jié)構(gòu)識(shí)別設(shè)計(jì)了一種「先分割,后合并」的方法:
即先把表格圖像拆分成一系列基礎(chǔ)網(wǎng)格,然后再通過合并的方式做進(jìn)一步糾正:
當(dāng)然,這些方法在多版式的場景下還存在局限性,杜俊教授也針對(duì)未來的工作做出了計(jì)劃和展望,希望能如他所愿:
三、總結(jié)
在21世紀(jì),人工智能已經(jīng)進(jìn)入了騰飛的快車道,而且隨著人工智能技術(shù)的不斷完善和發(fā)展,人工智能也從生產(chǎn)領(lǐng)域擴(kuò)大到生活領(lǐng)域,滲透到了人類生活的每一個(gè)細(xì)節(jié),有了人工智能技術(shù)的幫助,讓我們?cè)诔鲂小W(xué)習(xí)、工作等方面越來越方便,變得更加智慧化。
經(jīng)過此次會(huì)議,讓我對(duì)人工智能技術(shù)的發(fā)展和應(yīng)用有了更清晰的認(rèn)識(shí),特別是會(huì)議上邱錫鵬教授對(duì)ChatGPT類大語言模型的技術(shù)點(diǎn)深度剖析,讓我知道了ChatGPT的原理以及現(xiàn)階段的難點(diǎn)。ChatGPT的大火也充分展現(xiàn)了研發(fā)通用人工智能助手廣闊的研究和應(yīng)用前景,從客服問答,智能引導(dǎo),靈感創(chuàng)造等都已出現(xiàn)了它的身影,可能現(xiàn)在還不夠成熟可靠,但它的出現(xiàn)讓我們有了希望,這也是越來越多的企業(yè)跟風(fēng)加入其中的原因。我相信,在不久的將來,如同ChatGPT一樣的生成式人工智能產(chǎn)品將越來越頻繁地出現(xiàn)在我們的社會(huì)場景之中,成為常態(tài)。
郭豐俊博士在底層視覺技術(shù)處理圖像上的應(yīng)用分享讓我真正的感受到了智能數(shù)字化時(shí)代的高效和美好。以前處理PS痕跡檢測找了各種各樣的辦法,無論是exif識(shí)別還是用“放大鏡”工具手動(dòng)排查都無法高效準(zhǔn)確的解決此類問題?,F(xiàn)在通過先進(jìn)的底層視覺技術(shù)來智能化的進(jìn)行PS痕跡檢測在節(jié)約了大量的人力成本同時(shí),還提高了檢測效率及準(zhǔn)確性。這是人工智能價(jià)值最直觀的體現(xiàn)。文章來源:http://www.zghlxwxcb.cn/news/detail-782388.html
總而言之,AI時(shí)代已經(jīng)到來,AI時(shí)代會(huì)讓世界更高效!文章來源地址http://www.zghlxwxcb.cn/news/detail-782388.html
到了這里,關(guān)于通過CSIG—走進(jìn)合合信息探討生成式AI及文檔圖像處理的前景和價(jià)值的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!