国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

這篇具有很好參考價(jià)值的文章主要介紹了OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

深度學(xué)習(xí)之圖像處理

  • 圖像識(shí)別其實(shí)是一個(gè)從低層次到高層級(jí)特征學(xué)習(xí)的過程。底層級(jí)的特征比較抽象,二高層及的特征比較概念化。在圖像識(shí)別過程中,也就是從圖像像素特征,到圖像的形狀、輪廓,然后到概念,并進(jìn)行整合,分類,最終得到目標(biāo)特征,識(shí)別到人臉等。再怎么復(fù)雜的信息都是由基本結(jié)構(gòu)組合而成,就像人的認(rèn)知過程一樣,是由淺到深的一個(gè)過程。
  • 1981年的諾貝爾將頒發(fā)給了David Hubel和Torsten Wiesel,以及Roger Sperry。他們發(fā)現(xiàn)了人的視覺系統(tǒng)處理信息是分級(jí)的。
  • 從視網(wǎng)膜(Retina)出發(fā),經(jīng)過低級(jí)的V1區(qū)提取邊緣特征,到V2區(qū)的基本形狀或目標(biāo)的局部,再到高層的整個(gè)目標(biāo)(如判定為一張人臉),以及到更高層的PFC(前額葉皮層)進(jìn)行分類判斷等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表達(dá)越來越抽象和概念化,也即越來越能表現(xiàn)語義或者意圖。
  • 邊緣特征 —–> 基本形狀和目標(biāo)的局部特征——>整個(gè)目標(biāo)
  • 這個(gè)過程其實(shí)和我們的常識(shí)是相吻合的,因?yàn)閺?fù)雜的圖形,往往就是由一些基本結(jié)構(gòu)組合而成的。同時(shí)我們還可以看出:大腦是一個(gè)深度架構(gòu),認(rèn)知過程也是深度的。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

  • 深度學(xué)習(xí),恰恰就是通過組合低層特征形成更加抽象的高層特征(或?qū)傩灶悇e)。例如,在計(jì)算機(jī)視覺領(lǐng)域,深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到一個(gè)低層次表達(dá),例如邊緣檢測(cè)器、小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上,通過線性或者非線性組合,來獲得一個(gè)高層次的表達(dá)。此外,不僅圖像存在這個(gè)規(guī)律,聲音也是類似的。比如,研究人員從某個(gè)聲音庫中通過算法自動(dòng)發(fā)現(xiàn)了20種基本的聲音結(jié)構(gòu),其余的聲音都可以由這20種基本結(jié)構(gòu)來合成!

ocr技術(shù)挑戰(zhàn):

算法層:

  • 這些問題給文本檢測(cè)和文本識(shí)別都帶來了巨大的技術(shù)挑戰(zhàn),可以看到,這些挑戰(zhàn)主要都是面向自然場(chǎng)景,目前學(xué)術(shù)界的研究也主要聚焦在自然場(chǎng)景,OCR領(lǐng)域在學(xué)術(shù)上的常用數(shù)據(jù)集也都是自然場(chǎng)景。針對(duì)這些問題的研究很多,相對(duì)來說,識(shí)別比檢測(cè)面臨更大的挑戰(zhàn)。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

應(yīng)用層:

  • 在實(shí)際應(yīng)用中,尤其是在廣泛的通用場(chǎng)景下,除了上一節(jié)總結(jié)的仿射變換、尺度問題、光照不足、拍攝模糊等算法層面的技術(shù)難點(diǎn),OCR技術(shù)還面臨兩大落地難點(diǎn):
  • 1、海量數(shù)據(jù)要求OCR能夠?qū)崟r(shí)處理。 OCR應(yīng)用常對(duì)接海量數(shù)據(jù),我們要求或希望數(shù)據(jù)能夠得到實(shí)時(shí)處理,模型的速度做到實(shí)時(shí)是一個(gè)不小的挑戰(zhàn)。
  • 2、端側(cè)應(yīng)用要求OCR模型足夠輕量,識(shí)別速度足夠快。 OCR應(yīng)用常部署在移動(dòng)端或嵌入式硬件,端側(cè)OCR應(yīng)用一般有兩種模式:上傳到服務(wù)器vs. 端側(cè)直接識(shí)別,考慮到上傳到服務(wù)器的方式對(duì)網(wǎng)絡(luò)有要求,實(shí)時(shí)性較低,并且請(qǐng)求量過大時(shí)服務(wù)器壓力大,以及數(shù)據(jù)傳輸?shù)陌踩詥栴},我們希望能夠直接在端側(cè)完成OCR識(shí)別,而端側(cè)的存儲(chǔ)空間和計(jì)算能力有限,因此對(duì)OCR模型的大小和預(yù)測(cè)速度有很高的要求。

OCR前沿算法

  • 雖然OCR是一個(gè)相對(duì)具體的任務(wù),但涉及了多方面的技術(shù),包括文本檢測(cè)、文本識(shí)別、端到端文本識(shí)別、文檔分析等等。學(xué)術(shù)上關(guān)于OCR各項(xiàng)相關(guān)技術(shù)的研究層出不窮,下文將簡(jiǎn)要介紹OCR任務(wù)中的幾種關(guān)鍵技術(shù)的相關(guān)工作。

文本檢測(cè)

  • 文本檢測(cè)的任務(wù)是定位出輸入圖像中的文字區(qū)域。近年來學(xué)術(shù)界關(guān)于文本檢測(cè)的研究非常豐富,一類方法將文本檢測(cè)視為目標(biāo)檢測(cè)中的一個(gè)特定場(chǎng)景,基于通用目標(biāo)檢測(cè)算法進(jìn)行改進(jìn)適配,如TextBoxes基于一階段目標(biāo)檢測(cè)器SSD算法,調(diào)整目標(biāo)框使之適合極端長寬比的文本行,CTPN則是基于Faster RCNN架構(gòu)改進(jìn)而來。但是文本檢測(cè)與目標(biāo)檢測(cè)在目標(biāo)信息以及任務(wù)本身上仍存在一些區(qū)別,如文本一般長寬比較大,往往呈“條狀”,文本行之間可能比較密集,彎曲文本等,因此又衍生了很多專用于文本檢測(cè)的算法,如EAST[5]、PSENet[6]、DBNet[7]等等。
  • 目前較為流行的文本檢測(cè)算法可以大致分為基于回歸和基于分割的兩大類文本檢測(cè)算法,也有一些算法將二者相結(jié)合?;诨貧w的算法借鑒通用物體檢測(cè)算法,通過設(shè)定anchor回歸檢測(cè)框,或者直接做像素回歸,這類方法對(duì)規(guī)則形狀文本檢測(cè)效果較好,但是對(duì)不規(guī)則形狀的文本檢測(cè)效果會(huì)相對(duì)差一些,比如CTPN[3]對(duì)水平文本的檢測(cè)效果較好,但對(duì)傾斜、彎曲文本的檢測(cè)效果較差,SegLink[8]對(duì)長文本比較好,但對(duì)分布稀疏的文本效果較差;基于分割的算法引入了Mask-RCNN[9],這類算法在各種場(chǎng)景、對(duì)各種形狀文本的檢測(cè)效果都可以達(dá)到一個(gè)更高的水平,但缺點(diǎn)就是后處理一般會(huì)比較復(fù)雜,因此常常存在速度問題,并且無法解決重疊文本的檢測(cè)問題。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

文本識(shí)別

  • 文本識(shí)別的任務(wù)是識(shí)別出圖像中的文字內(nèi)容,一般輸入來自于文本檢測(cè)得到的文本框截取出的圖像文字區(qū)域。文本識(shí)別一般可以根據(jù)待識(shí)別文本形狀分為規(guī)則文本識(shí)別和不規(guī)則文本識(shí)別兩大類。規(guī)則文本主要指印刷字體、掃描文本等,文本大致處在水平線位置;不規(guī)則文本往往不在水平位置,存在彎曲、遮擋、模糊等問題。不規(guī)則文本場(chǎng)景具有很大的挑戰(zhàn)性,也是目前文本識(shí)別領(lǐng)域的主要研究方向。
    OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

  • 規(guī)則文本識(shí)別的算法根據(jù)解碼方式的不同可以大致分為基于CTC和Sequence2Sequence兩種,將網(wǎng)絡(luò)學(xué)習(xí)到的序列特征 轉(zhuǎn)化為 最終的識(shí)別結(jié)果 的處理方式不同。基于CTC的算法以經(jīng)典的CRNN為代表。
    OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

  • 不規(guī)則文本的識(shí)別算法相比更為豐富,如STAR-Net等方法通過加入TPS等矯正模塊,將不規(guī)則文本矯正為規(guī)則的矩形后再進(jìn)行識(shí)別;RARE等基于Attention的方法增強(qiáng)了對(duì)序列之間各部分相關(guān)性的關(guān)注;基于分割的方法將文本行的各字符作為獨(dú)立個(gè)體,相比與對(duì)整個(gè)文本行做矯正后識(shí)別,識(shí)別分割出的單個(gè)字符更加容易;此外,隨著近年來Transfomer的快速發(fā)展和在各類任務(wù)中的有效性驗(yàn)證,也出現(xiàn)了一批基于Transformer的文本識(shí)別算法,這類方法利用transformer結(jié)構(gòu)解決CNN在長依賴建模上的局限性問題,也取得了不錯(cuò)的效果。
    OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

文檔結(jié)構(gòu)化識(shí)別

  • 傳統(tǒng)意義上的OCR技術(shù)可以解決文字的檢測(cè)和識(shí)別需求,但在實(shí)際應(yīng)用場(chǎng)景中,最終需要獲取的往往是結(jié)構(gòu)化的信息,如身份證、發(fā)票的信息格式化抽取,表格的結(jié)構(gòu)化識(shí)別等等,多在快遞單據(jù)抽取、合同內(nèi)容比對(duì)、金融保理單信息比對(duì)、物流業(yè)單據(jù)識(shí)別等場(chǎng)景下應(yīng)用。OCR結(jié)果+后處理是一種常用的結(jié)構(gòu)化方案,但流程往往比較復(fù)雜,并且后處理需要精細(xì)設(shè)計(jì),泛化性也比較差。在OCR技術(shù)逐漸成熟、結(jié)構(gòu)化信息抽取需求日益旺盛的背景下,版面分析、表格識(shí)別、關(guān)鍵信息提取等關(guān)于智能文檔分析的各種技術(shù)受到了越來越多的關(guān)注和研究。
    版面分析
  • 版面分析(Layout
    Analysis)主要是對(duì)文檔圖像進(jìn)行內(nèi)容分類,類別一般可分為純文本、標(biāo)題、表格、圖片等?,F(xiàn)有方法一般將文檔中不同的板式當(dāng)做不同的目標(biāo)進(jìn)行檢測(cè)或分割,如Soto Carlos[16]在目標(biāo)檢測(cè)算法Faster R-CNN的基礎(chǔ)上,結(jié)合上下文信息并利用文檔內(nèi)容的固有位置信息來提高區(qū)域檢測(cè)性能;Sarkar Mausoom等人提出了一種基于先驗(yàn)的分割機(jī)制,在非常高的分辨率的圖像上訓(xùn)練文檔分割模型,解決了過度縮小原始圖像導(dǎo)致的密集區(qū)域不同結(jié)構(gòu)無法區(qū)分進(jìn)而合并的問題。
    表格識(shí)別
  • 表格識(shí)別(Table Recognition)的任務(wù)就是將文檔里的表格信息進(jìn)行識(shí)別和轉(zhuǎn)換到excel文件中。文本圖像中表格種類和樣式復(fù)雜多樣,例如不同的行列合并,不同的內(nèi)容文本類型等,除此之外文檔的樣式和拍攝時(shí)的光照環(huán)境等都為表格識(shí)別帶來了極大的挑戰(zhàn)。這些挑戰(zhàn)使得表格識(shí)別一直是文檔理解領(lǐng)域的研究難點(diǎn)。
  • 表格識(shí)別的方法種類較為豐富,早期的基于啟發(fā)式規(guī)則的傳統(tǒng)算法,如Kieninger[18]等人提出的T-Rect等算法,一般通過人工設(shè)計(jì)規(guī)則,連通域檢測(cè)分析處理;近年來隨著深度學(xué)習(xí)的發(fā)展,開始涌現(xiàn)一些基于CNN的表格結(jié)構(gòu)識(shí)別算法,如Siddiqui Shoaib Ahmed[等人提出的DeepTabStR,Raja Sachin[等人提出的TabStruct-Net等;此外,隨著圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network)的興起,也有一些研究者嘗試將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到表格結(jié)構(gòu)識(shí)別問題上,基于圖神經(jīng)網(wǎng)絡(luò),將表格識(shí)別看作圖重建問題,如Xue Wenyuan等人提出的TGRNet;基于端到端的方法直接使用網(wǎng)絡(luò)完成表格結(jié)構(gòu)的HTML表示輸出,端到端的方法大多采用Seq2Seq方法來完成表格結(jié)構(gòu)的預(yù)測(cè),如一些基于Attention或Transformer的方法,如 TableMaster[22]。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

關(guān)鍵信息提取

  • 關(guān)鍵信息提?。↘ey Information Extraction,KIE)是Document
    VQA中的一個(gè)重要任務(wù),主要從圖像中提取所需要的關(guān)鍵信息,如從身份證中提取出姓名和公民身份號(hào)碼信息,這類信息的種類往往在特定任務(wù)下是固定的,但是在不同任務(wù)間是不同的。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)

  • KIE通常分為兩個(gè)子任務(wù)進(jìn)行研究:
  • SER: 語義實(shí)體識(shí)別 (Semantic Entity Recognition),對(duì)每一個(gè)檢測(cè)到的文本進(jìn)行分類,如將其分為姓名,身份證。如下圖中的黑色框和紅色框。
  • RE: 關(guān)系抽取 (Relation Extraction),對(duì)每一個(gè)檢測(cè)到的文本進(jìn)行分類,如將其分為問題和的答案。然后對(duì)每一個(gè)問題找到對(duì)應(yīng)的答案。如下圖中的紅色框和黑色框分別代表問題和答案,黃色線代表問題和答案之間的對(duì)應(yīng)關(guān)系。

OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)文章來源地址http://www.zghlxwxcb.cn/news/detail-452397.html

  • 一般的KIE方法基于命名實(shí)體識(shí)別(Named Entity Recognition,NER)來研究,但是這類方法只利用了圖像中的文本信息,缺少對(duì)視覺和結(jié)構(gòu)信息的使用,因此精度不高。在此基礎(chǔ)上,近幾年的方法都開始將視覺和結(jié)構(gòu)信息與文本信息融合到一起,按照對(duì)多模態(tài)信息進(jìn)行融合時(shí)所采用的的原理可以將這些方法分為下面四種:
  • 基于Grid的方法
  • 基于Token的方法
  • 基于GCN的方法
  • 基于End to End 的方法

到了這里,關(guān)于OCR表格識(shí)別(三)——文本檢測(cè)與文本識(shí)別理論學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包