国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

垂直領域大模型——文檔圖像大模型的思考與探索

這篇具有很好參考價值的文章主要介紹了垂直領域大模型——文檔圖像大模型的思考與探索。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

〇、前言

12月1日,2023中國圖象圖形學學會青年科學家會議在廣州召開。超1400名研究人員齊聚一堂,進行學術交流與研討,共同探索促進圖象圖形領域“產(chǎn)學研”交流合作。

大會上,合合信息智能技術平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士在《垂直領域大模型》主題論壇上進行了《文檔圖像大模型的思考與探索》主題分享。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型


一、技術難題仍存在

2023年,隨著以Chat-GPT為代表的大語言模型和GPT4-V多模態(tài)大模型的爆火,雖然他們在文檔領域已經(jīng)取得了令人驚艷的效果,但目前,OCR文檔圖像識別等領域的核心技術難題仍然存在。

  1. 場景及版式多樣:文檔圖像可能來自不同的場景和版式,如報紙、書籍、手寫筆記等,每種場景和版式都具有不同的特點和挑戰(zhàn),需要算法能夠適應不同的場景和版式。
  2. 采集設備不確定性:文檔圖像可能通過不同的采集設備獲取,如掃描儀、手機相機等,不同設備的成像質量和參數(shù)不同,導致圖像質量和特征的差異,需要算法具備魯棒性,能夠處理不同設備采集的圖像。
  3. 用戶需求多樣性:用戶對文檔圖像的需求各不相同,有些用戶可能只需要提取文本信息,而有些用戶可能需要進行結構化的理解和分析,算法需要能夠滿足不同用戶的需求。
  4. 文檔圖像質量退化嚴重:由于文檔的老化、損壞或存儲條件等原因,文檔圖像的質量可能會受到嚴重的退化,如模糊、噪聲、光照不均等,這會給文字檢測、字符識別等任務帶來困難。
  5. 文字檢測及版面分析困難:文檔圖像中的文字可能存在不同的字體、大小、顏色等變化,而且文字可能與背景顏色相似,導致文字檢測和版面分析變得困難,算法需要具備高效準確的文字檢測和版面分析能力。
  6. 非限定條件文字識別率低:在非限定條件下,文檔圖像中的文字可能出現(xiàn)扭曲、變形、遮擋等情況,這會導致傳統(tǒng)的文字識別算法的準確率下降,需要算法具備對非限定條件下的文字進行準確識別的能力。
  7. 結構化智能理解能力差:文檔圖像中的信息不僅僅是文字,還包括表格、圖表、圖像等結構化信息,算法需要具備結構化智能理解的能力,能夠對文檔中的結構化信息進行提取、分析和理解。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

雖然大模型技術發(fā)展很快,特別是GPT4-V、Gemini等新技術的發(fā)明,但是領域內需要解決的核心問題并沒有變,在IDP領域,上述這幾個大的問題仍然是我們重點關注的,只不過由于大模型的出現(xiàn),使得我們對技術的期待變得更高了。


二、GPT4-V在文檔處理領域的表現(xiàn)

LLM出現(xiàn)后,IDP的問題解決的如何了? 在具體的技術方案上有沒有什么重大的變化?這個是我們關心的話題。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

GPT4-V優(yōu)點

  • 端到端解決識別和理解問題,認知能力強。
  • 支持識別和理解的文檔元素類型遠超傳統(tǒng)IDP算法。

在場景文字識別上,無論是何種不同語言形態(tài)和種類的場景下,在手寫密集文檔、幾何圖形與文字結合、圖表理解、教育場景、信息抽取、文檔理解等領域,GPT-4V都可以取得比較好的結果。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

GPT4-V不足

  • OCR精度距離SOTA有較大差距。
  • 長文檔依賴外部的OCR/文檔解析引擎。

GPT-4V目前在手寫中文識別、公式等方面仍存在識別混亂、錯誤等問題。
垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型
目前,GPT-4V在 OCR、IDP 領域的水平較 SOTA 還有非常大的差距,對于長文檔,仍然有文檔解析和識別的前置依賴,ChatGPT 調用了開源的 PyPDF2,但該插件效果并不好,且輸出不支持表格結構、不支持掃描件、不支持處理復雜版式、不支持定位到原文。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

思考與總結

GPT4-V多模態(tài)大模型大幅度提升了AI技術在文檔分析與識別領域的能力邊界,端到端實現(xiàn)了文檔的識別到理解的全過程。并且提供了一條研發(fā)新范式:“大數(shù)據(jù)、大算力、多任務、端到端?!?/strong>

像篡改檢測、文本分割擦除這樣像素級的任務,GPT-4V大模型處理的并不好,雖然它在文檔解析和識別領域的能力已經(jīng)具備,但較之于SOTA方法來比較,性能還是有待提升。

GPT-4V這樣多模態(tài)大模型的強項在于信息抽取和理解認知層面,這一特點在經(jīng)過有效利用后,可以大幅提升該研究領域的天花板。


三、大模型時代對IDP的思考與探索

1.像素級OCR統(tǒng)一模型

在文檔圖像預處理統(tǒng)一模型方面,下面介紹2個合合信息與華南理工大學聯(lián)合實驗室的研究成果。

第一個研究成果是UPOCR,一種文檔圖像像素級多任務處理的統(tǒng)一模型。模型如圖所示,UPOCR是一個通用的OCR模型,引入可學習的Prompt來指導基于ViT的編碼器-解碼器架構,統(tǒng)一了不同像素級OCR任務的范式、架構和訓練策略。 UPOCR的通用能力在文本去除、文本分割和篡改文本檢測任務上得到了廣泛驗證,顯著優(yōu)于現(xiàn)有的專門模型。

2.OCR大一統(tǒng)模型

  • 將文檔圖像識別分析的各種任務定義為序列預測的形式
    文本,段落,版面分析,表格,公式等等
  • 通過不同的prompt引導模型完成不同的OCR任務
  • 支持篇章級的文檔圖像識別分析,輸出Markdown/HTML/Text等標準格式
  • 將文檔理解相關的工作交給LLM去做

一個復雜的系統(tǒng)模型應該需要做到:

在輸入層,模型可以接收任何類型的文本文件作為輸入,包括Word文檔、PDF文檔等。這一層的主要任務是對原始文本數(shù)據(jù)進行預處理,為后續(xù)的處理階段準備數(shù)據(jù)。

處理層是模型的核心部分,它將對輸入的文本數(shù)據(jù)進行一系列的分析和操作,如分詞、語法分析、語義分析以及拼寫檢查等。這些處理步驟能幫助模型更好地理解和處理文本數(shù)據(jù)。

在輸出層,模型將對處理后的結果進行可視化展示,可以是以圖表、圖形、文字等形式。這一層的主要任務是將復雜的數(shù)據(jù)處理結果以易于理解的方式呈現(xiàn)給用戶。

盡管這個模型已經(jīng)實現(xiàn)了高效的數(shù)據(jù)處理,但它仍有進一步發(fā)展和優(yōu)化的空間。例如,可以探索如何更準確地識別和處理各種類型的文本數(shù)據(jù),如何改進語法分析和語義理解的技術以提升模型的性能,以及如何設計和實現(xiàn)更有效的數(shù)據(jù)可視化方法以幫助用戶更好地理解和利用模型輸出的結果。這些方向的研究和發(fā)展將推動文本數(shù)據(jù)處理技術的進步,對許多領域都將產(chǎn)生深遠的影響。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

合合信息基于SPTS的OCR大一統(tǒng)模型(SPTS v3)

SPTS 是一種創(chuàng)新的端到端文本檢測和識別方法,它顛覆了傳統(tǒng)的文本檢測和識別流程。傳統(tǒng)的方法通常將文本檢測和識別看作兩個獨立的任務,導致處理流程復雜且冗余。而SPTS將這兩個任務融為一體,將文本檢測和識別定義為圖片到序列的預測任務,極大地簡化了處理流程。另外,SPTS采用單點標注技術指示文本位置,這樣就可以極大地降低標注成本。同時,它無需RoI采樣和復雜的后處理操作,真正將檢測和識別融為一體。

將多種OCR任務定義為序列預測的形式,通過不同的prompt引導模型完成不同的OCR任務,模型沿用SPTS的CNN+TransformerEncoder+Transformer Decoder的圖片到序列的結構。
垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

SPTS v3目前主要關注以下任務:端到端檢測識別、表格結構識別、手寫數(shù)學公式識別。
垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型
實驗結果表明,SPTSv3 在各個OCR任務上都取得了出色的性能,顯示了其在文檔圖像處理中的潛力。這為文檔圖像的多任務處理提供了一種高效的解決方案,有望應用于廣泛的應用領域,包括自動化文檔處理、文檔搜索和內容提取等。

3.文檔識別分析+LLM應用

檢索增強生成(RAG)和文檔問答是LLM在文檔領域最常見和最廣泛的應用之一
。

垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型
合合信息提出文檔識別分析+LLM應用解決方案
垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型

合合信息文檔圖像識別與分析產(chǎn)品

基于深度學習的方法,合合信息將文檔圖像切分為文本、圖形、公式、表格、印章等不同類型的內容區(qū)域,并分析區(qū)域之間的邏輯關系,讓機器更精準地確定文檔中的文字位置、字體、大小和排版方式,可以更好地理解文檔的結構和內容,并提取出有用的信息。

此外,合合信息表格結構解析方法在邏輯版面分析中利用自上而下的方法以及端到端圖像到標記的方法等,保證區(qū)域內容的完整性的同時,顯著提升檢測準確率。

版面分析是文檔圖像還原的核心,通過解決版面分析的痛點,合合信息將圖像文檔以數(shù)字化的手段更精準地轉化為文檔數(shù)據(jù),應用于多種使用場景、提升工作效率。
垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型


四、總結

1.機遇與挑戰(zhàn)

  • GPT4-V 為代表的多模態(tài)大模型技術極大的推進了文檔識別與分析領域的技術進展,也給傳統(tǒng)的IDP技術帶來了挑戰(zhàn)。

2.問題仍未消滅

  • 大模型并沒有完全解決IDP領域面臨的問題,很多問題值得我們研究。

3.結合提升能力

  • 如何結合大模型的能力,更好的解決IDP的問題,值得我們做更多的思考和探索。

4.合合信息聚焦文檔圖像領域,大有可為

  • 合合信息的研究成果具有重要意義,同時這些成果和問題的探索也將為文檔圖像領域的發(fā)展提供新的思路和方向。

作為行業(yè)領先的人工智能及大數(shù)據(jù)科技企業(yè),合合信息深耕智能文字識別、圖像處理、自然語言處理等領域,其研發(fā)的智能圖像處理技術等已落地并服務與各行業(yè)領域。未來,合合信息還將繼續(xù)在文檔圖像處理方向發(fā)力,讓新技術實現(xiàn)多場景應用。

文末粉絲福利

抽10人,每人50元京東卡:填問卷才可以抽哦→ 點此參與,12號開獎,快來參與吧。


垂直領域大模型——文檔圖像大模型的思考與探索,人工智能,OCR,人工智能,智能圖像識別,文檔識別,大模型文章來源地址http://www.zghlxwxcb.cn/news/detail-803303.html

到了這里,關于垂直領域大模型——文檔圖像大模型的思考與探索的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 聊聊心理醫(yī)療領域大模型的落地思考

    聊聊心理醫(yī)療領域大模型的落地思考

    轉載請注明出處:https://www.cnblogs.com/zhiyong-ITNote 近來,工作偏向于心理醫(yī)療領域方面的大模型,僅從領域大模型的落地,聊聊個人的一些思考。 準備好花錢買GPU。 首先需要審視斟酌業(yè)務領域的特殊性與可行性,我們要做的是心理領域,而心理領域傾向于醫(yī)患對話,即 詢問鏈

    2024年03月21日
    瀏覽(25)
  • 多模態(tài)及圖像安全的探索與思考

    多模態(tài)及圖像安全的探索與思考

    ????????第六屆中國模式識別與計算機視覺大會(The 6th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2023)已于近期在廈門成功舉辦。通過參加本次會議,使我有機會接觸到許多來自國內外的模式識別和計算機視覺領域的研究者和工業(yè)界同行,了解了目前我國模式識

    2024年02月08日
    瀏覽(13)
  • 探索大語言模型垂直化訓練技術和應用-陳運文

    探索大語言模型垂直化訓練技術和應用-陳運文

    內容來源:ChatGPT 及大模型專題研討會? 分享嘉賓:達觀數(shù)據(jù)董事長兼CEO 陳運文博士 分享主題:《探索大語言模型垂直化訓練技術和應用》? 轉載自CSDN稿件 本文整理自 3月11日 《ChatGPT 及大規(guī)模專題研討會》上,達觀數(shù)據(jù)董事長兼CEO 陳運文博士關于《探索大語言模型垂直化

    2024年02月10日
    瀏覽(26)
  • 探索人工智能在健康數(shù)據(jù)分析中的新領域:智能醫(yī)療咨詢

    作者:禪與計算機程序設計藝術 隨著全球數(shù)字化進程的加快、互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展、數(shù)字健康產(chǎn)品和服務的不斷涌現(xiàn),人工智能(AI)作為一種高技術含量的新興產(chǎn)業(yè)正在引爆全新的經(jīng)濟增長點。而如何利用人工智能技術幫助醫(yī)療機構進行健康管理,則是一個亟待解決的問

    2024年02月07日
    瀏覽(18)
  • ChatGPT助力測試領域!探索人工智能編寫測試用例的新前景

    ChatGPT助力測試領域!探索人工智能編寫測試用例的新前景

    簡介 測試用例是測試人員的核心工作內容,是測試人員思想的“實現(xiàn)類”,其充分體現(xiàn)了測試的思路,可以為后續(xù)的測試行為提供指導,是測試人員了解業(yè)務的重要根據(jù)和質量之根本。如果測試用例設計得不完成,出現(xiàn)了遺漏,那么通常是會出現(xiàn)大家不想看到的后果,如漏測

    2024年04月28日
    瀏覽(21)
  • 人工智能在圖像處理領域的應用

    人工智能在圖像處理領域的應用

    隨著科技的不斷發(fā)展,人工智能(AI)逐漸成為當今社會的熱點話題。人工智能正在逐漸滲透到人類生活的各個領域,改變著我們的生活方式和社會結構。在圖像處理領域,人工智能的應用也越來越廣泛,為圖像處理帶來了更高效、更準確的解決方案。本文將從圖像分類、圖

    2024年02月04日
    瀏覽(23)
  • 人工智能交互革命:探索ChatGPT的無限可能 第9章 ChatGPT在醫(yī)療領域的應用

    近年來,隨著人口老齡化和醫(yī)療技術的不斷進步,醫(yī)療領域對人工智能技術的需求不斷增加。其中,ChatGPT作為一種強大的自然語言處理技術,在醫(yī)療領域也開始得到廣泛關注和應用。本節(jié)將探討ChatGPT在醫(yī)療領域中的現(xiàn)狀和需求。 一、ChatGPT在醫(yī)療領域中的現(xiàn)狀 目前,ChatGPT在

    2023年04月20日
    瀏覽(27)
  • 人工智能繪畫Midjourney:探索其在文化藝術、設計和虛擬現(xiàn)實領域中的應用

    人工智能繪畫Midjourney:探索其在文化藝術、設計和虛擬現(xiàn)實領域中的應用

    人工智能技術在各個領域的應用越來越廣泛,其中包括文化藝術、設計和虛擬現(xiàn)實等方面。作為一種基于生成對抗網(wǎng)絡(GAN)技術的自動繪畫系統(tǒng),Midjourney已經(jīng)在這些領域中展示了其巨大的應用潛力。 1.文化藝術領域 Midjourney可以為藝術家提供更多的靈感和創(chuàng)造空間。該系統(tǒng)

    2024年02月11日
    瀏覽(18)
  • 文檔圖像智能分析與處理:CCIG技術論壇的思考與展望

    文檔圖像智能分析與處理:CCIG技術論壇的思考與展望

    摘要:本文記錄了CCIG技術論壇中關于文檔圖像智能分析與處理的主要討論內容。論壇聚焦于文檔圖像在人工智能領域的廣泛應用,并介紹了來自中國科學院、北京大學、中國科學技術大學、華為云和上海合合信息科技的多位專家的演講和觀點。其中,劉成林副所長分享了人工

    2024年02月06日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包