寫在前面
文檔
是人們在日常生活、工作中產(chǎn)生的信息的重要載體,各領(lǐng)域從業(yè)者幾乎每天都要與金融票據(jù)、商業(yè)規(guī)劃、財(cái)務(wù)報(bào)表、會議記錄、合同、簡歷、采購訂單等文檔或者圖像“打交道”。所以讓計(jì)算機(jī)具備閱讀、理解和解釋這些文檔圖像的能力,在智能金融、智能辦公、電子商務(wù)等許多領(lǐng)域具有廣闊的應(yīng)用價(jià)值。但現(xiàn)階段文檔圖像的處理過程中面臨著諸多挑戰(zhàn):文檔類型的多樣產(chǎn)生了繁雜的版式與結(jié)構(gòu);受拍攝器材、背景環(huán)境影響,圖像時(shí)常存在噪聲和質(zhì)量問題等。
技術(shù)論壇
為了促進(jìn)文檔圖像分析與處理領(lǐng)域的技術(shù)交流及發(fā)展,中國圖象圖形學(xué)學(xué)會文檔圖像分析與識別專業(yè)委員會與合合信息共同打造了《文檔圖像智能分析與處理》高峰論壇。在本次論壇中,合合信息特別邀請了來自中科院自動化所、北大、中科大、華南理工大的學(xué)術(shù)專家與華為等知名企業(yè)的研究者們,圍繞文檔圖像處理及 OCR 領(lǐng)域等前沿技術(shù)展開“頭腦風(fēng)暴”,尋找文檔圖像處理領(lǐng)域的未來進(jìn)階方向。
■ 智能文檔圖像處理技術(shù)
在合合信息科技丁凱博士所報(bào)告的《智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn)》一題中,主要針對 智能文檔圖像處理
進(jìn)行了探討,而且站在合合信息的角度提出了一些技術(shù)難題的解決辦法。
在文檔圖像的分析與預(yù)處理方面,首先對文檔區(qū)域進(jìn)行 ROI 提取,然后去除手指等干擾,再到形變(彎曲/傾斜透視)矯正、陰影/摩爾紋去除、圖像增強(qiáng)等技術(shù),實(shí)現(xiàn)將一張質(zhì)量非常差的圖片進(jìn)行恢復(fù)和提升,可大幅提升文檔智能掃描、文檔識別分析、圖轉(zhuǎn) Word/Excel 等業(yè)務(wù)性能。
這里的彎曲矯正早期的方法是基于文本行線擬合和坐標(biāo)變換的方法進(jìn)行的,從一個文本文檔上下各找一條文本行線,將這兩條線作為基線,然后通過全局變化、誤差調(diào)整實(shí)現(xiàn)文檔圖像的矯正。但是這樣的方式對于比較稀疏或者不均勻文檔效果就很一般了,比較好的一個改進(jìn)方法是基于偏移場學(xué)習(xí)的方法,先計(jì)算出每一個像素的偏移場,然后對每一個像素進(jìn)行空間變換,這樣就會比較好的對文檔圖像進(jìn)行矯正。
摩爾紋去除的主要原理是先從文檔背景中提取一個模塊,將文檔圖像中的摩爾紋等干擾項(xiàng)進(jìn)行提取,然后通過干擾去除模塊對摩爾紋進(jìn)行去除,最后將原圖和去除干擾項(xiàng)的圖進(jìn)行融合,這樣則會獲得一張比較好的摩爾紋去除圖。
以下是文檔圖像預(yù)處理的整體效果。
在文檔圖像篡改檢測方面,傳統(tǒng)的檢測方式是基于 文件標(biāo)記
進(jìn)行檢測,比如說該圖片是否被 PS 處理過,但實(shí)際上即使經(jīng)過 PS 處理,痕跡也是很容易被第三方抹除掉的。合合信息則是創(chuàng)新性的抓住圖像篡改在像素層面的特征,將 頻譜特征
和 圖像特征
融合,最后通過 Position Embedding 檢測篡改的位置信息。該處理方式效果顯著。
針對文檔圖像處理和文檔圖像安全及落地應(yīng)用方面,可以看到合合信息已經(jīng)取得顯著成就。我認(rèn)為基于此還有一些可能的技術(shù)趨勢,比如通過機(jī)器學(xué)習(xí)和自然語言處理技術(shù),自動分類和標(biāo)記文檔圖像,從而提高文檔圖像處理的準(zhǔn)確性和效率;通過深度學(xué)習(xí)技術(shù),自動從圖像中提取關(guān)鍵信息,例如標(biāo)題、摘要等,從而提高文檔圖像的信息提取效率;通過圖像識別技術(shù),自動檢測文檔圖像中的不同信息,例如文字、標(biāo)語、簽名等,從而提高文檔圖像的識別準(zhǔn)確率;通過語義分析技術(shù),可以對文檔圖像進(jìn)行語義分析和提取,從而實(shí)現(xiàn)自動分類和標(biāo)記,例如可以根據(jù)圖像中的文字內(nèi)容自動分類和標(biāo)記;
不僅如此,當(dāng)下爆火的人工智能也完全可以與文檔圖像處理結(jié)合,比如自動識別和分類、文檔理解、文檔圖像處理和安全自動化等。
■ 大模型時(shí)代的文檔識別與理解
當(dāng)下大模型如火如荼,比如 ChatGPT 的發(fā)布就引起了一陣熱潮。在這樣一個大模型時(shí)代,無論是哪個領(lǐng)域的研究都不可能回避大模型,包括文檔識別與理解。但是在技術(shù)結(jié)合的過程當(dāng)中大模型也難免會有一些不足,比如它在文檔閱讀的過程當(dāng)中識別精度可能不高等,這些都需要去大規(guī)模的驗(yàn)證。而它的不足對于研究員和企業(yè)來說則是一種機(jī)遇,,是一種應(yīng)用需求的增多,我們可以充分利用大模型的特征表示能力和語言能力,以及開發(fā)不同任務(wù)的專用模型和學(xué)習(xí)算法等。
在大模型的基礎(chǔ)上,文檔分析與識別的未來研究方向可以以 設(shè)計(jì)自動化
和 應(yīng)用無人化
為目標(biāo),拓展文檔中多元素、多內(nèi)容、多語言、多場景、多類型,提升研究廣度,增強(qiáng)文檔語義理解能力、可解釋性、可信度等研究深度。主要研究內(nèi)容可以從版面分割、文本識別、表格識別、信息提取等方面拓展,涵蓋文檔電子化、人機(jī)交互、場景理解、信息檢索/抽取、問答、推理決策等多個領(lǐng)域。
■ 篡改文本圖像的生成與檢測
目前圖像篡改生成與檢測的研究主要集中在自然圖像,針對文本圖像的相關(guān)研究較少。
篡改文本圖像生成的主要任務(wù)是對場景圖像中的指定文本進(jìn)行編輯,在保留原始字體風(fēng)格和背景紋理的同時(shí)使目標(biāo)文本盡可能清晰,如隱私信息保護(hù)、拍照翻譯等,如何做到在原來文檔圖像基礎(chǔ)上修改內(nèi)容且不留痕跡是主要研究內(nèi)容。
早期的主流方法是 端到端場景文本擦除
,通過條件對抗生成網(wǎng)絡(luò)構(gòu)建文本擦除器,該方法模型簡單且提出了基本的文本擦除解決思路,但是在復(fù)雜文本圖像的擦除上效果一般。到后來引入了 文本感知分支
,用于提升網(wǎng)絡(luò)對文本區(qū)域的捕捉能力,該方式引入多級擦除策略,擦除效果明顯提升,但是網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜,參數(shù)量厚重。再到后來使用基于 StyleGANg
的篡改生成框架,可同時(shí)生成原文本和目標(biāo)文本模仿目標(biāo)風(fēng)格的圖像,該方法能夠在真實(shí)數(shù)據(jù)集上訓(xùn)練,但是網(wǎng)絡(luò)結(jié)構(gòu)依舊復(fù)雜,需依賴大量訓(xùn)練數(shù)據(jù)。
針對這些問題,中科大的謝教授提出的方法是 基于迭代局部擦除的場景文本擦除方法
,顯性解耦定位和背景重建分支,通過基于局部編輯的擦除操作防止對背景紋理的改動。構(gòu)建平衡的多級擦除結(jié)構(gòu),共享多級之間的 Block 權(quán)重,并只監(jiān)督最后一層輸出,這樣的方式在不使用對抗損失的情況下,擦除效果更好且網(wǎng)絡(luò)結(jié)構(gòu)更加簡單。
圓桌討論
在論壇的最后一個階段是圓桌討論,由各位與會的專家對 OCR 等技術(shù)進(jìn)行深入探討。
問題一:大模型技術(shù)對 OCR、文檔圖像分析和理解帶來哪些機(jī)遇和挑戰(zhàn)?
劉
:gpt 仍需要大量數(shù)據(jù)量檢測。鄒
:從技術(shù)路線來說,專業(yè)化大規(guī)模的預(yù)訓(xùn)練模型是可行。謝
:結(jié)合 OCR、海量數(shù)據(jù)、理解能力很強(qiáng),OCR 結(jié)果對模型有很大支持作用。廖
:很好的機(jī)會點(diǎn)是將現(xiàn)有的 ocr 引擎、算法去和一些大模型做結(jié)合。丁
:gpt 等大模型從技術(shù)路線等方面對我們很有啟發(fā),擁抱技術(shù)的革新;很多算法在一個數(shù)據(jù)集表現(xiàn)很好,換一個就不行,如果通過零樣本、小樣本等進(jìn)行技術(shù)創(chuàng)新是值得探索的點(diǎn)。思考 ocr 領(lǐng)域的智能涌現(xiàn)是什么很重要。金
:現(xiàn)有的 gpt 與現(xiàn)有的先進(jìn)的 ocr 還是有差距的,在較難的關(guān)鍵信息抽取方面可能差距到五六十個點(diǎn)。利用大模型做 ocr 相關(guān)研究,關(guān)注技術(shù)的邊界,是值得關(guān)注的。
問題二:是否需要構(gòu)建 OCR 垂直領(lǐng)域的大模型?預(yù)計(jì)模型參數(shù)規(guī)模要有多大?什么數(shù)量級的訓(xùn)練數(shù)據(jù)?技術(shù)路徑可能是什么?
劉
:模型的能力都是有局限的,未來較好的文檔預(yù)訓(xùn)練模型應(yīng)該是多層級的、參數(shù)擴(kuò)大到十億幾十個億。鄒
:十個億左右的參數(shù)在圖像文本領(lǐng)域應(yīng)該足夠,一個大的趨勢是集成和多任務(wù)的學(xué)習(xí)。謝
:大模型應(yīng)該是有垂直領(lǐng)域區(qū)分的,如教育、醫(yī)藥等,會取得更好效果。廖
:數(shù)據(jù)方面,數(shù)據(jù)的數(shù)量不是最關(guān)鍵的,最關(guān)鍵的是數(shù)據(jù)的多樣性。丁
:大模型的參數(shù)量被廣泛討論,對比 gpt3 與 gpt4 就可以看出。數(shù)據(jù)量和樣本多樣性十分重要,十億左右的參數(shù)量足夠的。我用一千萬的合成數(shù)據(jù),不如十萬的真實(shí)數(shù)據(jù),這是 ocr 研究中的重要課題,在大模型框架下可能成為一個方向。
問題三:語言的大模型和視覺大模型的能力互補(bǔ)有怎樣的關(guān)系,ocr 和 nlp 是什么關(guān)系,如果 ocr 是前處理,是不是 ocr 就會被削弱,如果 ocr 是目標(biāo),那大模型就會成為輔助?
廖
:我傾向于 nlp,真正做到一個通用的人工智能,語言識別就是最核心的。如果技術(shù)發(fā)展到一定程度,人會使用工具,比如各類傳感器,但是核心還是以語言邏輯思考為主,有了工具+語言,造出的人工智能跟人的差距就很小,打通感知與認(rèn)知會成為人工智能的最終形態(tài)。劉
:各類模型應(yīng)該是并行并存的關(guān)系,如多模態(tài)的大模型 gpt,對標(biāo)人也是如此,人看東西也是圖像文字同時(shí)識別發(fā)揮作用的。
問題四:無監(jiān)督預(yù)訓(xùn)練技術(shù)是構(gòu)建大模型的基礎(chǔ)性技術(shù)之一,如果要做 ocr 相關(guān)的大模型,其采用的無監(jiān)督預(yù)訓(xùn)練技術(shù)路線可能有哪些?
丁
:openai 說智能涌現(xiàn)就是一個算法遇到了巨大的數(shù)據(jù)量,在 gpt 出來前,大家都在關(guān)注 bert,個人猜測 gpt 還是將所有的數(shù)據(jù)輸入后訓(xùn)練模型。金
:還是通用的 ai 更被人關(guān)注使用。
…
對于本次大會深度延展的成果和未來發(fā)展方向,我們可以看出,人工智能、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等前沿技術(shù)已經(jīng)成為當(dāng)前圖形圖像產(chǎn)業(yè)的熱點(diǎn)領(lǐng)域。
未來愿景
CCIG 2023 已圓滿結(jié)束,這是一次非常成功的計(jì)算機(jī)圖形學(xué)會議。作為一名 IT 技術(shù)博主,我本人對圖像圖形領(lǐng)域也有著極大的興趣。所以本次論壇我全程進(jìn)行了線上的參與,也產(chǎn)生了自己的一些想法。
技術(shù)創(chuàng)新是推動計(jì)算機(jī)視覺和人工智能發(fā)展的關(guān)鍵。在本次大會上,許多與會者展示了令人驚嘆的新技術(shù),例如由文本到圖像的跨語言翻譯、人工智能驅(qū)動的藝術(shù)創(chuàng)作等。
多學(xué)科合作是解決計(jì)算機(jī)視覺和人工智能問題的重要途徑。在本次大會上,許多與會者分享了他們?nèi)绾螌⒉煌I(lǐng)域的知識應(yīng)用于計(jì)算機(jī)視覺和人工智能領(lǐng)域,以解決復(fù)雜問題。這表明跨學(xué)科合作是解決復(fù)雜問題的重要途徑,需要各個領(lǐng)域的專家學(xué)者共同努力。
個人經(jīng)驗(yàn)對計(jì)算機(jī)視覺和人工智能發(fā)展同樣重要。許多優(yōu)秀的研究成果都是由研究人員通過實(shí)踐經(jīng)驗(yàn)得出的,這表明個人經(jīng)驗(yàn)對于計(jì)算機(jī)視覺和人工智能領(lǐng)域的研究同樣重要,需要通過實(shí)踐經(jīng)驗(yàn),才能更好地理解問題,并提出更好的解決方案。文章來源:http://www.zghlxwxcb.cn/news/detail-449319.html
需要更多的教育和培訓(xùn)。有很多年輕的研究人員參加本次會議,這表明計(jì)算機(jī)視覺和人工智能領(lǐng)域需要更多的教育和培訓(xùn)。只有通過教育和培訓(xùn),才能培養(yǎng)更多的優(yōu)秀研究人員,推動技術(shù)的發(fā)展。文章來源地址http://www.zghlxwxcb.cn/news/detail-449319.html
到了這里,關(guān)于智能圖像處理技術(shù):開啟未來視覺時(shí)代的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!