〇、前言
12月1日,2023中國圖象圖形學學會青年科學家會議在廣州召開。超1400名研究人員齊聚一堂,進行學術交流與研討,共同探索促進圖象圖形領域“產(chǎn)學研”交流合作。
大會上,合合信息智能技術平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士在《垂直領域大模型》主題論壇上進行了《文檔圖像大模型的思考與探索》主題分享。
一、技術難題仍存在
2023年,隨著以Chat-GPT為代表的大語言模型和GPT4-V多模態(tài)大模型的爆火,雖然他們在文檔領域已經(jīng)取得了令人驚艷的效果,但目前,OCR文檔圖像識別等領域的核心技術難題仍然存在。
- 場景及版式多樣:文檔圖像可能來自不同的場景和版式,如報紙、書籍、手寫筆記等,每種場景和版式都具有不同的特點和挑戰(zhàn),需要算法能夠適應不同的場景和版式。
- 采集設備不確定性:文檔圖像可能通過不同的采集設備獲取,如掃描儀、手機相機等,不同設備的成像質量和參數(shù)不同,導致圖像質量和特征的差異,需要算法具備魯棒性,能夠處理不同設備采集的圖像。
- 用戶需求多樣性:用戶對文檔圖像的需求各不相同,有些用戶可能只需要提取文本信息,而有些用戶可能需要進行結構化的理解和分析,算法需要能夠滿足不同用戶的需求。
- 文檔圖像質量退化嚴重:由于文檔的老化、損壞或存儲條件等原因,文檔圖像的質量可能會受到嚴重的退化,如模糊、噪聲、光照不均等,這會給文字檢測、字符識別等任務帶來困難。
- 文字檢測及版面分析困難:文檔圖像中的文字可能存在不同的字體、大小、顏色等變化,而且文字可能與背景顏色相似,導致文字檢測和版面分析變得困難,算法需要具備高效準確的文字檢測和版面分析能力。
- 非限定條件文字識別率低:在非限定條件下,文檔圖像中的文字可能出現(xiàn)扭曲、變形、遮擋等情況,這會導致傳統(tǒng)的文字識別算法的準確率下降,需要算法具備對非限定條件下的文字進行準確識別的能力。
- 結構化智能理解能力差:文檔圖像中的信息不僅僅是文字,還包括表格、圖表、圖像等結構化信息,算法需要具備結構化智能理解的能力,能夠對文檔中的結構化信息進行提取、分析和理解。
雖然大模型技術發(fā)展很快,特別是GPT4-V、Gemini等新技術的發(fā)明,但是領域內需要解決的核心問題并沒有變,在IDP領域,上述這幾個大的問題仍然是我們重點關注的,只不過由于大模型的出現(xiàn),使得我們對技術的期待變得更高了。
二、GPT4-V在文檔處理領域的表現(xiàn)
“LLM出現(xiàn)后,IDP的問題解決的如何了? 在具體的技術方案上有沒有什么重大的變化?這個是我們關心的話題。”
GPT4-V優(yōu)點
- 端到端解決識別和理解問題,認知能力強。
- 支持識別和理解的文檔元素類型遠超傳統(tǒng)IDP算法。
在場景文字識別上,無論是何種不同語言形態(tài)和種類的場景下,在手寫密集文檔、幾何圖形與文字結合、圖表理解、教育場景、信息抽取、文檔理解等領域,GPT-4V都可以取得比較好的結果。
GPT4-V不足
- OCR精度距離SOTA有較大差距。
- 長文檔依賴外部的OCR/文檔解析引擎。
GPT-4V目前在手寫中文識別、公式等方面仍存在識別混亂、錯誤等問題。
目前,GPT-4V在 OCR、IDP 領域的水平較 SOTA 還有非常大的差距,對于長文檔,仍然有文檔解析和識別的前置依賴,ChatGPT 調用了開源的 PyPDF2,但該插件效果并不好,且輸出不支持表格結構、不支持掃描件、不支持處理復雜版式、不支持定位到原文。
思考與總結
GPT4-V多模態(tài)大模型大幅度提升了AI技術在文檔分析與識別領域的能力邊界,端到端實現(xiàn)了文檔的識別到理解的全過程。并且提供了一條研發(fā)新范式:“大數(shù)據(jù)、大算力、多任務、端到端?!?/strong>
像篡改檢測、文本分割擦除這樣像素級的任務,GPT-4V大模型處理的并不好,雖然它在文檔解析和識別領域的能力已經(jīng)具備,但較之于SOTA方法來比較,性能還是有待提升。
GPT-4V這樣多模態(tài)大模型的強項在于信息抽取和理解認知層面,這一特點在經(jīng)過有效利用后,可以大幅提升該研究領域的天花板。
三、大模型時代對IDP的思考與探索
1.像素級OCR統(tǒng)一模型
在文檔圖像預處理統(tǒng)一模型方面,下面介紹2個合合信息與華南理工大學聯(lián)合實驗室的研究成果。
第一個研究成果是UPOCR,一種文檔圖像像素級多任務處理的統(tǒng)一模型。模型如圖所示,UPOCR是一個通用的OCR模型,引入可學習的Prompt來指導基于ViT的編碼器-解碼器架構,統(tǒng)一了不同像素級OCR任務的范式、架構和訓練策略。 UPOCR的通用能力在文本去除、文本分割和篡改文本檢測任務上得到了廣泛驗證,顯著優(yōu)于現(xiàn)有的專門模型。
2.OCR大一統(tǒng)模型
-
將文檔圖像識別分析的各種任務定義為序列預測的形式
文本,段落,版面分析,表格,公式等等 - 通過不同的prompt引導模型完成不同的OCR任務
- 支持篇章級的文檔圖像識別分析,輸出Markdown/HTML/Text等標準格式
- 將文檔理解相關的工作交給LLM去做
一個復雜的系統(tǒng)模型應該需要做到:
在輸入層,模型可以接收任何類型的文本文件作為輸入,包括Word文檔、PDF文檔等。這一層的主要任務是對原始文本數(shù)據(jù)進行預處理,為后續(xù)的處理階段準備數(shù)據(jù)。
處理層是模型的核心部分,它將對輸入的文本數(shù)據(jù)進行一系列的分析和操作,如分詞、語法分析、語義分析以及拼寫檢查等。這些處理步驟能幫助模型更好地理解和處理文本數(shù)據(jù)。
在輸出層,模型將對處理后的結果進行可視化展示,可以是以圖表、圖形、文字等形式。這一層的主要任務是將復雜的數(shù)據(jù)處理結果以易于理解的方式呈現(xiàn)給用戶。
盡管這個模型已經(jīng)實現(xiàn)了高效的數(shù)據(jù)處理,但它仍有進一步發(fā)展和優(yōu)化的空間。例如,可以探索如何更準確地識別和處理各種類型的文本數(shù)據(jù),如何改進語法分析和語義理解的技術以提升模型的性能,以及如何設計和實現(xiàn)更有效的數(shù)據(jù)可視化方法以幫助用戶更好地理解和利用模型輸出的結果。這些方向的研究和發(fā)展將推動文本數(shù)據(jù)處理技術的進步,對許多領域都將產(chǎn)生深遠的影響。
合合信息基于SPTS的OCR大一統(tǒng)模型(SPTS v3)
SPTS 是一種創(chuàng)新的端到端文本檢測和識別方法,它顛覆了傳統(tǒng)的文本檢測和識別流程。傳統(tǒng)的方法通常將文本檢測和識別看作兩個獨立的任務,導致處理流程復雜且冗余。而SPTS將這兩個任務融為一體,將文本檢測和識別定義為圖片到序列的預測任務,極大地簡化了處理流程。另外,SPTS采用單點標注技術指示文本位置,這樣就可以極大地降低標注成本。同時,它無需RoI采樣和復雜的后處理操作,真正將檢測和識別融為一體。
將多種OCR任務定義為序列預測的形式,通過不同的prompt引導模型完成不同的OCR任務,模型沿用SPTS的CNN+TransformerEncoder+Transformer Decoder的圖片到序列的結構。
SPTS v3目前主要關注以下任務:端到端檢測識別、表格結構識別、手寫數(shù)學公式識別。
實驗結果表明,SPTSv3 在各個OCR任務上都取得了出色的性能,顯示了其在文檔圖像處理中的潛力。這為文檔圖像的多任務處理提供了一種高效的解決方案,有望應用于廣泛的應用領域,包括自動化文檔處理、文檔搜索和內容提取等。
3.文檔識別分析+LLM應用
檢索增強生成(RAG)和文檔問答是LLM在文檔領域最常見和最廣泛的應用之一
。
合合信息提出文檔識別分析+LLM應用解決方案
合合信息文檔圖像識別與分析產(chǎn)品
基于深度學習的方法,合合信息將文檔圖像切分為文本、圖形、公式、表格、印章等不同類型的內容區(qū)域,并分析區(qū)域之間的邏輯關系,讓機器更精準地確定文檔中的文字位置、字體、大小和排版方式,可以更好地理解文檔的結構和內容,并提取出有用的信息。
此外,合合信息表格結構解析方法在邏輯版面分析中利用自上而下的方法以及端到端圖像到標記的方法等,保證區(qū)域內容的完整性的同時,顯著提升檢測準確率。
版面分析是文檔圖像還原的核心,通過解決版面分析的痛點,合合信息將圖像文檔以數(shù)字化的手段更精準地轉化為文檔數(shù)據(jù),應用于多種使用場景、提升工作效率。
四、總結
1.機遇與挑戰(zhàn)
- GPT4-V 為代表的多模態(tài)大模型技術極大的推進了文檔識別與分析領域的技術進展,也給傳統(tǒng)的IDP技術帶來了挑戰(zhàn)。
2.問題仍未消滅
- 大模型并沒有完全解決IDP領域面臨的問題,很多問題值得我們研究。
3.結合提升能力
- 如何結合大模型的能力,更好的解決IDP的問題,值得我們做更多的思考和探索。
4.合合信息聚焦文檔圖像領域,大有可為
- 合合信息的研究成果具有重要意義,同時這些成果和問題的探索也將為文檔圖像領域的發(fā)展提供新的思路和方向。
作為行業(yè)領先的人工智能及大數(shù)據(jù)科技企業(yè),合合信息深耕智能文字識別、圖像處理、自然語言處理等領域,其研發(fā)的智能圖像處理技術等已落地并服務與各行業(yè)領域。未來,合合信息還將繼續(xù)在文檔圖像處理方向發(fā)力,讓新技術實現(xiàn)多場景應用。
文末粉絲福利
抽10人,每人50元京東卡:填問卷才可以抽哦→ 點此參與,12號開獎,快來參與吧。文章來源:http://www.zghlxwxcb.cn/news/detail-803303.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-803303.html
到了這里,關于垂直領域大模型——文檔圖像大模型的思考與探索的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!