您是否曾經(jīng)被包含不同信息(如應(yīng)付賬款、日期、商品數(shù)量、單價和金額)的發(fā)票所淹沒?在處理重要的商業(yè)合同時,您是否擔(dān)心小數(shù)點后點錯誤,造成無法估量的經(jīng)濟損失?您是否在尋找頂尖人才時閱讀過大量簡歷?商務(wù)人士必須處理所有這些任務(wù)和各種各樣的文件,包括保險單、業(yè)務(wù)報告、電子郵件和運輸訂單。
在數(shù)字時代,公司通常必須將所有這些文檔以及各種圖表和圖像數(shù)字化,以簡化其程序。然而,手動數(shù)字化文檔是一種低效的做法,因為許多掃描文檔的質(zhì)量參差不齊,而網(wǎng)頁和電子文檔可能具有不同的布局。我們?nèi)绾斡行У靥崛?、組織和分析這些不同文檔中的信息?答案是文檔人工智能技術(shù),它將員工和公司從這種重復(fù)而乏味的工作中解放出來。
文檔AI主要是指利用AI技術(shù),以豐富的排版格式從網(wǎng)頁、數(shù)字文檔或掃描文檔中自動提取、分類和理解信息。它是自然語言處理(NLP)和計算機視覺(CV)交叉的重要研究領(lǐng)域。深度學(xué)習(xí)技術(shù)的激增極大地推動了文檔人工智能的發(fā)展,在視覺信息提取和文檔布局分析,以及文檔視覺問答和文檔圖像分類等方面都有顯著的性能提升。Document AI 在幫助企業(yè)節(jié)省運營成本、提高員工效率和減少人為錯誤方面也發(fā)揮著重要作用。
從文本到多模態(tài)模型:文檔 AI 逐漸發(fā)展新技能。
Microsoft Research Asia的Document AI系列研究始于2019年。在對深度學(xué)習(xí)的深入研究中,研究人員希望從公開可用的文檔中提取有用的信息,以建立一個可以支持深度學(xué)習(xí)模型預(yù)訓(xùn)練任務(wù)的知識庫。然而,由于現(xiàn)實世界的文檔不包含結(jié)構(gòu)化數(shù)據(jù),因此從雜亂的文檔中提取結(jié)構(gòu)化文本信息是研究人員必須解決的第一個問題。
為了解決這個問題,Microsoft Research Asia提出了UniLM,這是一種統(tǒng)一的預(yù)訓(xùn)練語言模型,可以讀取文檔并自動生成內(nèi)容。UniLM模型在自然語言理解和生成任務(wù)方面取得了很好的成果。此外,研究人員還為該系統(tǒng)提供了通過開發(fā)跨語言預(yù)訓(xùn)練模型(InfoXLM)將英語NLP任務(wù)擴展到多種語言的功能。在現(xiàn)實世界中,文檔不僅包含文本信息,還包含布局和樣式信息(例如,字體、顏色和下劃線)。因此,僅處理文本信息的模型無法應(yīng)用于需要多模態(tài)程序的實際場景。
2019年底,Microsoft亞洲研究院推出了LayoutLM,這是一個結(jié)合了NLP和CV技術(shù)的通用預(yù)訓(xùn)練文檔基礎(chǔ)模型。這是第一個可以在文檔級預(yù)訓(xùn)練的單個框架中同時學(xué)習(xí)文本和布局信息的模型。LayoutLM 對來自 IIT-CDIP Test Collection 1.0 數(shù)據(jù)集的大約 1100 萬張掃描文檔圖像進(jìn)行了預(yù)訓(xùn)練。它還可以通過大規(guī)模使用未標(biāo)記的掃描文檔圖像以自我監(jiān)督的方式輕松訓(xùn)練,在表單和收據(jù)理解以及圖像分類任務(wù)方面優(yōu)于其他模型。 在一個名為LayoutLMv2的更新模型中,研究人員隨后將視覺信息納入預(yù)訓(xùn)練過程,以提高其圖像理解能力。這個新模型成功地將文檔文本、布局和視覺信息統(tǒng)一到一個可以學(xué)習(xí)跨模態(tài)交互的端到端框架中。
此外,研究人員還開發(fā)了 LayoutXLM,這是一種基于 LayoutLMv2 的多模態(tài)預(yù)訓(xùn)練模型,但可以執(zhí)行多語言文檔理解,以滿足使用各種語言的不同用戶的需求。LayoutXLM 模型不僅集成了來自多語言文檔的文本和視覺信息,還利用了它們的局部不變性。LayoutXLM 可以處理近 200 種語言的文檔。為了準(zhǔn)確評估預(yù)訓(xùn)練模型在多語言文檔理解方面的性能,研究人員還創(chuàng)建了多語言表單理解基準(zhǔn)數(shù)據(jù)集XFUND,該數(shù)據(jù)集涵蓋七種語言(即中文、日語、西班牙語、法語、意大利語、德語和葡萄牙語)。
與包含掃描文檔圖像和數(shù)字生成的 PDF 文件的固定布局文檔不同,許多基于標(biāo)記語言的文檔(如基于 HTML 的網(wǎng)頁和基于 XML 的 Office 文檔)通常是實時呈現(xiàn)的。出于這個原因,研究人員開發(fā)了 MarkupLM 模型來處理基于標(biāo)記語言的文檔的源代碼,并在沒有額外計算資源的情況下理解它們。實驗結(jié)果表明,MarkupLM明顯優(yōu)于以往基于固定布局的方法,具有較強的實用性。
Microsoft Research Asia繼續(xù)迭代Document AI技術(shù),使其能夠處理不同類型的數(shù)據(jù),包括文本,布局和圖像信息。今年,Microsoft Research Asia發(fā)布了LayoutLMv3,這是最新的多模態(tài)預(yù)訓(xùn)練模型,可以實現(xiàn)統(tǒng)一的蒙版文本和圖像建模。LayoutLMv3 是第一個通過屏蔽文本和圖像的預(yù)測來緩解文本和圖像多模態(tài)表示學(xué)習(xí)之間的差異的模型。此外,LayoutLMv3 經(jīng)過預(yù)訓(xùn)練以實現(xiàn)詞塊對齊,這意味著它可以通過預(yù)測單詞的相應(yīng)圖像塊是否被屏蔽來學(xué)習(xí)跨模態(tài)對齊。在模型架構(gòu)方面,LayoutLMv3 不依賴預(yù)訓(xùn)練的 CNN 骨干來提取視覺特征。但是,它直接利用文檔圖像補丁,從而大大節(jié)省了參數(shù),消除了區(qū)域注釋,并避免了復(fù)雜的文檔預(yù)處理。這些簡單統(tǒng)一的架構(gòu)和訓(xùn)練目標(biāo)使 LayoutLMv3 成為通用預(yù)訓(xùn)練模型,適用于以文本為中心和以圖像為中心的文檔 AI 任務(wù)。
Microsoft Research Asia合伙人研究經(jīng)理Furu Wei表示:“Layout(X)LM系列模型在我們推動基礎(chǔ)模型的’大融合’和跨任務(wù)、語言和模態(tài)的大規(guī)模自監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)研究中發(fā)揮著至關(guān)重要的作用。
“我們看到了一種不同模式大融合的研究趨勢,來自不同領(lǐng)域的科學(xué)家正在研究統(tǒng)一模型,包括NLP、CV等。LayoutLM的前兩個版本專注于語言處理,而LayoutLMv3的優(yōu)勢在于它可以處理NLP和CV模式的任務(wù),在計算機視覺領(lǐng)域取得了重大突破,“Microsoft亞洲研究院首席研究經(jīng)理崔磊說。
GitHub 鏈接: https://github.com/microsoft/unilm
行業(yè)領(lǐng)先的型號
Layout(X)LM 系列模型在利用大規(guī)模未標(biāo)記數(shù)據(jù)以及將文本和圖像與多模態(tài)、多頁面和多語言內(nèi)容集成方面處于領(lǐng)先地位。特別是 LayoutLMv3 的通用性和優(yōu)越性,使其成為文檔 AI 行業(yè)研究的標(biāo)桿模型。例如,Layout(X)LM 系列模型已被許多領(lǐng)先公司的許多 Document AI 產(chǎn)品采用,尤其是在機器人流程自動化 (RPA) 領(lǐng)域。
“Microsoft Research Asia不僅在建模創(chuàng)新和基準(zhǔn)數(shù)據(jù)集方面取得了顯著成果,而且還開發(fā)了許多應(yīng)用程序,允許用戶僅使用一個模型架構(gòu)執(zhí)行多項任務(wù)。學(xué)術(shù)界和工業(yè)界的許多同事都在使用 Layout(X)LM 進(jìn)行有意義的科學(xué)探索并推進(jìn)文檔 AI,“崔磊說。
Microsoft 在該領(lǐng)域處于領(lǐng)先地位,一系列 Microsoft Research Asia 的文檔 AI 模型現(xiàn)已用于許多與 Microsoft 相關(guān)的產(chǎn)品,例如 Azure 表單識別器、AI Builder 和 Microsoft Syntex?!拔覀兒芨吲d能與Microsoft亞洲研究院的這些頂尖研究人員合作。文檔基礎(chǔ)模型大大提高了我們的開發(fā)和應(yīng)用效率,并為文檔AI的普及做出了貢獻(xiàn)。我們期待未來在這一領(lǐng)域取得更多令人興奮的進(jìn)展,“Microsoft Azure AI的合作伙伴工程經(jīng)理Cha Zhang說。
Document AI 的下一步:開發(fā)通用和統(tǒng)一框架
隨著時間的推移,文檔人工智能的技術(shù)進(jìn)步使其在金融、醫(yī)療保健、能源、政府服務(wù)和物流等各個行業(yè)的應(yīng)用,為這些行業(yè)的人們節(jié)省了大量時間,因為他們現(xiàn)在可以避免手動處理。例如,在金融行業(yè),Document AI實現(xiàn)了財務(wù)報表分析、智能決策分析、發(fā)票和訂單的自動化信息提取;在醫(yī)療保健行業(yè),它促進(jìn)了病例數(shù)字化,分析了醫(yī)學(xué)文獻(xiàn)和病例的相關(guān)性,并提出了潛在的治療方案。文章來源:http://www.zghlxwxcb.cn/news/detail-831940.html
然而,Microsoft Research Asia不會固步自封,崔磊表示。其研究人員正計劃在三個方面進(jìn)一步推進(jìn)Document AI的基礎(chǔ)研究:增加模型規(guī)模、擴大訓(xùn)練數(shù)據(jù)和統(tǒng)一框架?!癗LP 中的 GPT-3 表明,大型語言模型可以顯著提高性能。當(dāng)前 Document AI 模型的訓(xùn)練數(shù)據(jù)不到 Web 規(guī)模數(shù)據(jù)的十分之一,因此仍有改進(jìn)的余地。在未來的研究中,我們將專注于擴大數(shù)據(jù)和模型的規(guī)模,以實現(xiàn)跨文檔AI框架的統(tǒng)一。文章來源地址http://www.zghlxwxcb.cn/news/detail-831940.html
到了這里,關(guān)于【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!