国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI

這篇具有很好參考價值的文章主要介紹了【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

您是否曾經(jīng)被包含不同信息(如應(yīng)付賬款、日期、商品數(shù)量、單價和金額)的發(fā)票所淹沒?在處理重要的商業(yè)合同時,您是否擔(dān)心小數(shù)點后點錯誤,造成無法估量的經(jīng)濟損失?您是否在尋找頂尖人才時閱讀過大量簡歷?商務(wù)人士必須處理所有這些任務(wù)和各種各樣的文件,包括保險單、業(yè)務(wù)報告、電子郵件和運輸訂單。

在數(shù)字時代,公司通常必須將所有這些文檔以及各種圖表和圖像數(shù)字化,以簡化其程序。然而,手動數(shù)字化文檔是一種低效的做法,因為許多掃描文檔的質(zhì)量參差不齊,而網(wǎng)頁和電子文檔可能具有不同的布局。我們?nèi)绾斡行У靥崛?、組織和分析這些不同文檔中的信息?答案是文檔人工智能技術(shù),它將員工和公司從這種重復(fù)而乏味的工作中解放出來。

【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI,深度學(xué)習(xí)知識專欄,人工智能

具有不同布局和格式的業(yè)務(wù)文檔的掃描圖像

文檔AI主要是指利用AI技術(shù),以豐富的排版格式從網(wǎng)頁、數(shù)字文檔或掃描文檔中自動提取、分類和理解信息。它是自然語言處理(NLP)和計算機視覺(CV)交叉的重要研究領(lǐng)域。深度學(xué)習(xí)技術(shù)的激增極大地推動了文檔人工智能的發(fā)展,在視覺信息提取和文檔布局分析,以及文檔視覺問答和文檔圖像分類等方面都有顯著的性能提升。Document AI 在幫助企業(yè)節(jié)省運營成本、提高員工效率和減少人為錯誤方面也發(fā)揮著重要作用。

從文本到多模態(tài)模型:文檔 AI 逐漸發(fā)展新技能。

Microsoft Research Asia的Document AI系列研究始于2019年。在對深度學(xué)習(xí)的深入研究中,研究人員希望從公開可用的文檔中提取有用的信息,以建立一個可以支持深度學(xué)習(xí)模型預(yù)訓(xùn)練任務(wù)的知識庫。然而,由于現(xiàn)實世界的文檔不包含結(jié)構(gòu)化數(shù)據(jù),因此從雜亂的文檔中提取結(jié)構(gòu)化文本信息是研究人員必須解決的第一個問題。

為了解決這個問題,Microsoft Research Asia提出了UniLM,這是一種統(tǒng)一的預(yù)訓(xùn)練語言模型,可以讀取文檔并自動生成內(nèi)容。UniLM模型在自然語言理解和生成任務(wù)方面取得了很好的成果。此外,研究人員還為該系統(tǒng)提供了通過開發(fā)跨語言預(yù)訓(xùn)練模型(InfoXLM)將英語NLP任務(wù)擴展到多種語言的功能。在現(xiàn)實世界中,文檔不僅包含文本信息,還包含布局和樣式信息(例如,字體、顏色和下劃線)。因此,僅處理文本信息的模型無法應(yīng)用于需要多模態(tài)程序的實際場景。

2019年底,Microsoft亞洲研究院推出了LayoutLM,這是一個結(jié)合了NLP和CV技術(shù)的通用預(yù)訓(xùn)練文檔基礎(chǔ)模型。這是第一個可以在文檔級預(yù)訓(xùn)練的單個框架中同時學(xué)習(xí)文本和布局信息的模型。LayoutLM 對來自 IIT-CDIP Test Collection 1.0 數(shù)據(jù)集的大約 1100 萬張掃描文檔圖像進(jìn)行了預(yù)訓(xùn)練。它還可以通過大規(guī)模使用未標(biāo)記的掃描文檔圖像以自我監(jiān)督的方式輕松訓(xùn)練,在表單和收據(jù)理解以及圖像分類任務(wù)方面優(yōu)于其他模型。 在一個名為LayoutLMv2的更新模型中,研究人員隨后將視覺信息納入預(yù)訓(xùn)練過程,以提高其圖像理解能力。這個新模型成功地將文檔文本、布局和視覺信息統(tǒng)一到一個可以學(xué)習(xí)跨模態(tài)交互的端到端框架中。

【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI,深度學(xué)習(xí)知識專欄,人工智能

記錄Microsoft亞洲研究院的AI研究進(jìn)展

此外,研究人員還開發(fā)了 LayoutXLM,這是一種基于 LayoutLMv2 的多模態(tài)預(yù)訓(xùn)練模型,但可以執(zhí)行多語言文檔理解,以滿足使用各種語言的不同用戶的需求。LayoutXLM 模型不僅集成了來自多語言文檔的文本和視覺信息,還利用了它們的局部不變性。LayoutXLM 可以處理近 200 種語言的文檔。為了準(zhǔn)確評估預(yù)訓(xùn)練模型在多語言文檔理解方面的性能,研究人員還創(chuàng)建了多語言表單理解基準(zhǔn)數(shù)據(jù)集XFUND,該數(shù)據(jù)集涵蓋七種語言(即中文、日語、西班牙語、法語、意大利語、德語和葡萄牙語)。

與包含掃描文檔圖像和數(shù)字生成的 PDF 文件的固定布局文檔不同,許多基于標(biāo)記語言的文檔(如基于 HTML 的網(wǎng)頁和基于 XML 的 Office 文檔)通常是實時呈現(xiàn)的。出于這個原因,研究人員開發(fā)了 MarkupLM 模型來處理基于標(biāo)記語言的文檔的源代碼,并在沒有額外計算資源的情況下理解它們。實驗結(jié)果表明,MarkupLM明顯優(yōu)于以往基于固定布局的方法,具有較強的實用性。

Microsoft Research Asia繼續(xù)迭代Document AI技術(shù),使其能夠處理不同類型的數(shù)據(jù),包括文本,布局和圖像信息。今年,Microsoft Research Asia發(fā)布了LayoutLMv3,這是最新的多模態(tài)預(yù)訓(xùn)練模型,可以實現(xiàn)統(tǒng)一的蒙版文本和圖像建模。LayoutLMv3 是第一個通過屏蔽文本和圖像的預(yù)測來緩解文本和圖像多模態(tài)表示學(xué)習(xí)之間的差異的模型。此外,LayoutLMv3 經(jīng)過預(yù)訓(xùn)練以實現(xiàn)詞塊對齊,這意味著它可以通過預(yù)測單詞的相應(yīng)圖像塊是否被屏蔽來學(xué)習(xí)跨模態(tài)對齊。在模型架構(gòu)方面,LayoutLMv3 不依賴預(yù)訓(xùn)練的 CNN 骨干來提取視覺特征。但是,它直接利用文檔圖像補丁,從而大大節(jié)省了參數(shù),消除了區(qū)域注釋,并避免了復(fù)雜的文檔預(yù)處理。這些簡單統(tǒng)一的架構(gòu)和訓(xùn)練目標(biāo)使 LayoutLMv3 成為通用預(yù)訓(xùn)練模型,適用于以文本為中心和以圖像為中心的文檔 AI 任務(wù)。

Microsoft Research Asia合伙人研究經(jīng)理Furu Wei表示:“Layout(X)LM系列模型在我們推動基礎(chǔ)模型的’大融合’和跨任務(wù)、語言和模態(tài)的大規(guī)模自監(jiān)督預(yù)訓(xùn)練的基礎(chǔ)研究中發(fā)揮著至關(guān)重要的作用。

【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI,深度學(xué)習(xí)知識專欄,人工智能

LayoutLMv3 的體系結(jié)構(gòu)和預(yù)訓(xùn)練目標(biāo)

“我們看到了一種不同模式大融合的研究趨勢,來自不同領(lǐng)域的科學(xué)家正在研究統(tǒng)一模型,包括NLP、CV等。LayoutLM的前兩個版本專注于語言處理,而LayoutLMv3的優(yōu)勢在于它可以處理NLP和CV模式的任務(wù),在計算機視覺領(lǐng)域取得了重大突破,“Microsoft亞洲研究院首席研究經(jīng)理崔磊說。

GitHub 鏈接: https://github.com/microsoft/unilm

行業(yè)領(lǐng)先的型號

Layout(X)LM 系列模型在利用大規(guī)模未標(biāo)記數(shù)據(jù)以及將文本和圖像與多模態(tài)、多頁面和多語言內(nèi)容集成方面處于領(lǐng)先地位。特別是 LayoutLMv3 的通用性和優(yōu)越性,使其成為文檔 AI 行業(yè)研究的標(biāo)桿模型。例如,Layout(X)LM 系列模型已被許多領(lǐng)先公司的許多 Document AI 產(chǎn)品采用,尤其是在機器人流程自動化 (RPA) 領(lǐng)域。

“Microsoft Research Asia不僅在建模創(chuàng)新和基準(zhǔn)數(shù)據(jù)集方面取得了顯著成果,而且還開發(fā)了許多應(yīng)用程序,允許用戶僅使用一個模型架構(gòu)執(zhí)行多項任務(wù)。學(xué)術(shù)界和工業(yè)界的許多同事都在使用 Layout(X)LM 進(jìn)行有意義的科學(xué)探索并推進(jìn)文檔 AI,“崔磊說。

Microsoft 在該領(lǐng)域處于領(lǐng)先地位,一系列 Microsoft Research Asia 的文檔 AI 模型現(xiàn)已用于許多與 Microsoft 相關(guān)的產(chǎn)品,例如 Azure 表單識別器、AI Builder 和 Microsoft Syntex?!拔覀兒芨吲d能與Microsoft亞洲研究院的這些頂尖研究人員合作。文檔基礎(chǔ)模型大大提高了我們的開發(fā)和應(yīng)用效率,并為文檔AI的普及做出了貢獻(xiàn)。我們期待未來在這一領(lǐng)域取得更多令人興奮的進(jìn)展,“Microsoft Azure AI的合作伙伴工程經(jīng)理Cha Zhang說。

Document AI 的下一步:開發(fā)通用和統(tǒng)一框架

隨著時間的推移,文檔人工智能的技術(shù)進(jìn)步使其在金融、醫(yī)療保健、能源、政府服務(wù)和物流等各個行業(yè)的應(yīng)用,為這些行業(yè)的人們節(jié)省了大量時間,因為他們現(xiàn)在可以避免手動處理。例如,在金融行業(yè),Document AI實現(xiàn)了財務(wù)報表分析、智能決策分析、發(fā)票和訂單的自動化信息提取;在醫(yī)療保健行業(yè),它促進(jìn)了病例數(shù)字化,分析了醫(yī)學(xué)文獻(xiàn)和病例的相關(guān)性,并提出了潛在的治療方案。

然而,Microsoft Research Asia不會固步自封,崔磊表示。其研究人員正計劃在三個方面進(jìn)一步推進(jìn)Document AI的基礎(chǔ)研究:增加模型規(guī)模、擴大訓(xùn)練數(shù)據(jù)和統(tǒng)一框架?!癗LP 中的 GPT-3 表明,大型語言模型可以顯著提高性能。當(dāng)前 Document AI 模型的訓(xùn)練數(shù)據(jù)不到 Web 規(guī)模數(shù)據(jù)的十分之一,因此仍有改進(jìn)的余地。在未來的研究中,我們將專注于擴大數(shù)據(jù)和模型的規(guī)模,以實現(xiàn)跨文檔AI框架的統(tǒng)一。文章來源地址http://www.zghlxwxcb.cn/news/detail-831940.html

到了這里,關(guān)于【前沿技術(shù)雜談:多模態(tài)文檔基礎(chǔ)模型】使用多模態(tài)文檔基礎(chǔ)模型徹底改變文檔 AI的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【前沿技術(shù)雜談:遷移學(xué)習(xí)】遷移學(xué)習(xí)是在航空業(yè)實現(xiàn)人工智能的最后一步嗎?

    【前沿技術(shù)雜談:遷移學(xué)習(xí)】遷移學(xué)習(xí)是在航空業(yè)實現(xiàn)人工智能的最后一步嗎?

    機器學(xué)習(xí)模仿人類如何通過經(jīng)驗獲取知識。然而,人類也可以在不同的任務(wù)之間轉(zhuǎn)移知識。假設(shè)您知道如何彈吉他——學(xué)習(xí)如何彈奏班卓琴對您來說有多難?鋼琴呢——你需要多少進(jìn)一步的學(xué)習(xí)? 這種建立在以前經(jīng)驗之上的理論,而不是從頭開始學(xué)習(xí),是當(dāng)今機器學(xué)習(xí)的一個

    2024年01月24日
    瀏覽(15)
  • Claude3 AI系列重磅推出:引領(lǐng)多模態(tài)智能時代的前沿技術(shù),超越GPT-4

    Claude3 AI系列重磅推出:引領(lǐng)多模態(tài)智能時代的前沿技術(shù),超越GPT-4

    劃重點: ?? Claude3系列發(fā)布,包括Haiku、Sonnet和Opus版本,Opus在多個領(lǐng)域超越GPT-4。 ?? 用戶可免費使用Claude3Sonnet模型,支持中文,API已覆蓋159個國家/地區(qū)。 ?? 新增多模態(tài)圖像識別提問功能,Claude3在數(shù)學(xué)與推理、可視化問答等方面超越GPT-4V。 (PS: wildcard已經(jīng)可以訂閱Clau

    2024年03月09日
    瀏覽(47)
  • 文檔處理新探究成果——前沿技術(shù)CCIG文檔圖像智能分析論壇分享

    文檔處理新探究成果——前沿技術(shù)CCIG文檔圖像智能分析論壇分享

    目錄 前言 一、文檔分析與識別最新研究 二、視覺-語言預(yù)訓(xùn)練模型及遷移學(xué)習(xí) 三、篡改文本圖像的生成與檢測技術(shù) 四、智能文檔處理技術(shù)在工業(yè)界的應(yīng)用與挑戰(zhàn) ?總結(jié) ?圖文智能處理前沿技術(shù)一直是我所關(guān)注的技術(shù),尤其在現(xiàn)在集成多態(tài)大模型的基礎(chǔ)之上,每一次技術(shù)突破

    2024年02月06日
    瀏覽(19)
  • 分享AIGC前沿論文系列二 面向區(qū)域級圖像理解的端到端多模態(tài)大模型GPT4RoI

    分享AIGC前沿論文系列二 面向區(qū)域級圖像理解的端到端多模態(tài)大模型GPT4RoI

    面向區(qū)域級圖像理解的端到端多模態(tài)大模型 帶來了超越圖像級理解的全新對話和交互體驗 進(jìn)行絲滑的人機互動,不僅僅是文字級別的人機互動 本文提出對感興趣區(qū)域進(jìn)行Instruction Tuning,并提出GPT4RoI: 一種區(qū)域級視覺-語言模型,帶來了超越圖像級理解的全新對話和交互體驗,

    2024年02月15日
    瀏覽(27)
  • 計算機視覺重磅會議VAlSE2023召開,合合信息分享智能文檔處理技術(shù)前沿進(jìn)展

    計算機視覺重磅會議VAlSE2023召開,合合信息分享智能文檔處理技術(shù)前沿進(jìn)展

    近期, 2023年度視覺與學(xué)習(xí)青年學(xué)者研討會 (Vision And Learning SEminar, VALSE) 圓滿落幕。會議由中國人工智能學(xué)會、中國圖象圖形學(xué)學(xué)會主辦,江南大學(xué)和無錫國家高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)管理委員會承辦。超五千名專家學(xué)者、知名高校師生以及來自O(shè)PPO、華為、百度、合合信息等科技

    2024年02月09日
    瀏覽(27)
  • ChatGPT:探索人工智能語言模型的前沿技術(shù)

    一、ChatGPT的背景和原理 ChatGPT是由OpenAI開發(fā)的基于GPT-3.5架構(gòu)的語言模型。它通過大規(guī)模的預(yù)訓(xùn)練和微調(diào)過程,學(xué)習(xí)了海量的文本數(shù)據(jù),并能夠生成連貫、有邏輯的回答。ChatGPT使用了自注意力機制和深度神經(jīng)網(wǎng)絡(luò),能夠?qū)ι舷挛倪M(jìn)行理解和生成有意義的響應(yīng)。 二、ChatGPT在自然

    2024年02月16日
    瀏覽(108)
  • 多模態(tài)大模型時代下的文檔圖像智能分析與處理

    多模態(tài)大模型時代下的文檔圖像智能分析與處理

    隨著人工智能技術(shù)的不斷發(fā)展,尤其是深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,多模態(tài)數(shù)據(jù)處理和大模型訓(xùn)練已成為當(dāng)下研究的熱點之一,這些技術(shù)也為文檔圖像智能處理和分析領(lǐng)域帶來了新的發(fā)展機遇。 多模態(tài)大模型時代下的文檔圖像智能分析與處理的研究旨在通過運用多種數(shù)據(jù)類型,

    2024年02月06日
    瀏覽(23)
  • 多模態(tài)模型技術(shù)綜述

    多模態(tài)模型技術(shù)綜述

    多模態(tài)學(xué)習(xí)是指從不同輸入模態(tài)學(xué)習(xí)表示的過程,例如圖像數(shù)據(jù)、文本或語音。由于自然語言處理(NLP)和計算機視覺(CV)領(lǐng)域的方法學(xué)突破,多模態(tài)模型因其能夠增強預(yù)測和更好地模擬人類學(xué)習(xí)的方式而受到越來越多的關(guān)注。本文重點討論圖像和文本作為輸入數(shù)據(jù)。該文

    2024年02月04日
    瀏覽(24)
  • kafka--技術(shù)文檔--spring-boot集成基礎(chǔ)簡單使用

    kafka--技術(shù)文檔--spring-boot集成基礎(chǔ)簡單使用

    ? ? ? ? 查閱了很多資料了解到,使用了spring-boot中整合的kafka的使用是被封裝好的。也就是說這些使用其實和在linux中的使用kafka代碼的使用其實沒有太大關(guān)系。但是邏輯是一樣的。這點要注意! 核心配置為: 如果在下面規(guī)定了spring-boot的版本那么就不需要再使用版本號,如

    2024年02月11日
    瀏覽(23)
  • 視頻理解多模態(tài)大模型(大模型基礎(chǔ)、微調(diào)、視頻理解基礎(chǔ))

    視頻理解多模態(tài)大模型(大模型基礎(chǔ)、微調(diào)、視頻理解基礎(chǔ))

    轉(zhuǎn)眼就要博0了,導(dǎo)師開始讓我看視頻理解多模態(tài)方向的內(nèi)容,重新一遍打基礎(chǔ)吧,從Python,到NLP,再到視頻理解,最后加上凸優(yōu)化,一步一步來,瘋學(xué)一個暑假。寫這個博客作為我的筆記以及好文章的鏈接搬運,以便以后復(fù)習(xí)。 Python從入門到放棄 視頻理解類Papers整理 萬字長

    2024年02月11日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包