国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

常用的表格檢測識別方法——表格結構識別方法 (下)

這篇具有很好參考價值的文章主要介紹了常用的表格檢測識別方法——表格結構識別方法 (下)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

常用的表格檢測識別方法——表格結構識別方法(下)

3.2表格結構識別方法

?表格結構識別是表格區(qū)域檢測之后的任務,其目標是識別出表格的布局結構、層次結構等,將表格視覺信息轉換成可重建表格的結構描述信息。這些表格結構描述信息包括:單元格的具體位置、單元格之間的關系、單元格的行列位置等。在當前的研究中,表格結構信息主要包括以下兩類描述形式:1)單元格的列表(包含每個單元格的位置、單元格 的行列信息、單元格的內容);2)HTML代碼或Latex代碼(包含單元格的位置信息,有些也會包含單元格的內容)。

?文章來源地址http://www.zghlxwxcb.cn/news/detail-467171.html

與表格區(qū)域檢測任務類似,在早期的表格結構識別方法中,研究者們通常會根據(jù)數(shù)據(jù)集特點,設計啟發(fā)式算法或者使用機器學習方法來完成表格結構識別任務。

?

Itonori(1993)根據(jù)表格中單元格的二維布局的 規(guī)律性,使用連通體分析抽取其中的文本塊,然后 對每個文本塊進行擴展對齊形成單元格,從而得到 每個單元格的物理坐標和行列位置。Rahgozar等人 (1994)則根據(jù)行列來進行表格結構的識別,其先 識別出圖片中的文本塊,然后按照文本塊的位置以及兩個單元格中間的空白區(qū)域做行的聚類和列的聚類,之后通過行和列的交叉得到每個單元格的位 置和表格的結構。

?

Hirayama等人(1995)則從表格線出發(fā),通過平行、垂直等幾何分析得到表格的行和列,并使用動態(tài)規(guī)劃匹配的方法對各個內容塊進 行邏輯關系識別,來恢復表格的結構。Zuyev(1997) 使用視覺特征進行表格的識別,使用行線和列線以及空白區(qū)域進行單元格分割。該算法已經(jīng)應用到FineReader OCR產品之中。Kieninger等人(1998) 提出了T-Recs(Table RECognition System)系統(tǒng),以 詞語區(qū)域的框作為輸入,并通過聚類和列分解等啟 發(fā)式方法,輸出各個文本框對應的信息,恢復表格 的結構。隨后,其又在此基礎上提出了T-Recs++系 統(tǒng)(Kieninger等,2001),進一步提升了識別效果。Amano等人(2001)創(chuàng)新性地引入了文本的語義信息,首先將文檔分解為一組框,并將它們半自動地 分為四種類型:空白、插入、指示和解釋。然后根據(jù) 文檔結構語法中定義的語義和幾何知識,分析表示 框與其關聯(lián)條目之間的框關系。

?

Wang等人(2004) 將表格結構定義為一棵樹,提出了一種基于優(yōu)化方 法設計的表結構理解算法。該算法通過對訓練集中 的幾何分布進行學習來優(yōu)化參數(shù),得到表格的結構。 同樣使用樹結構定義表格結構的還有Ishitani等人 (2005),其使用了DOM(Document Object Model) 樹來表示表格,從表格的輸入圖像中提取單元格特 征。然后對每個單元格進行分類,識別出不規(guī)則的 表格,并對其進行修改以形成規(guī)則的單元格排布。Hassan(2007)、Shigarov(2016)等人則以PDF文 檔為表格識別的載體,從PDF文檔中反解出表格視 覺信息。后者還提出了一種可配置的啟發(fā)式方法框架。

?

國內的表格結構識別研究起步較晚,因此傳統(tǒng)的啟發(fā)式方法和機器學習方法較少。

?

在早期,Liu等 人(1995)提出了表格框線模板方法,使用表格的 框架線構成框架模板,可以從拓撲上或幾何上反映 表格的結構。然后提出相應的項遍歷算法來定位和 標記表格中的項。之后Li等人(2012)使用OCR引擎抽取表單中的文本內容和文本位置,使用關鍵詞 來定位表頭,然后將表頭信息和表的投影信息結合 起來,得到列分隔符和行分隔符來得到表格結構。

?

總體來說,表格結構識別的傳統(tǒng)方法可以歸納為以下四種:基于行和列的分割與后處理,基于文本的檢測、擴展與后處理,基于文本塊的分類和后處理,以及幾類方法的融合。

?

隨著神經(jīng)網(wǎng)絡的興起,研究人員開始將它們應用于文檔布局分析任務中。后來,隨著更復雜的架構的發(fā)展,更多的工作被放到表列和整體結構識別中。

?

??A Zucker提出了一種有效的方法CluSTi,是一種用于識別發(fā)票掃描圖像中的表格結構的聚類方法。CluSTi有三個貢獻。首先,它使用了一種聚類方法來消除表格圖片中的高噪聲。其次,它使用最先進的文本識別技術來提取所有的文本框。最后,CluSTi使用具有最優(yōu)參數(shù)的水平和垂直聚類技術將文本框組織成正確的行和列。Z Zhang提出的分割、嵌入和合并(SEM)是一個準確的表結構識別器。M Namysl提出了一種通用的、模塊化的表提取方法。

?

E Koci 提出了一種新的方法來識別電子表格中的表格,并在確定每個單元格的布局角色后構建布局區(qū)域。他們使用圖形模型表示這些區(qū)域之間的空間相互關系。在此基礎上,他們提出了刪除和填充算法(RAC),這是一種基于一組精心選擇的標準的表識別算法。

?

SA?Siddiqui利用可變形卷積網(wǎng)絡的潛力,提出了一種獨特的方法來分析文檔圖片中的表格模式。P Riba提出了一種基于圖的識別文檔圖片中的表格結構的技術。該方法也使用位置、上下文和內容類型,而不是原始內容(可識別的文本),因此它只是一種結構性感知技術,不依賴于語言或文本閱讀的質量。E Koci使用基于遺傳的技術進行圖劃分,以識別與電子表中的表格匹配的圖的部分。

?

SA?Siddiqui將結構識別問題描述為語義分割問題。為了分割行和列,作者采用了完全卷積網(wǎng)絡。假設表結構的一致性的情況下,該方法引入了預測拼接方法,降低了表格結構識別的復雜性。作者從ImageNet導入預先訓練的模型,并使用FCN編碼器和解碼器的結構模型。當給定圖像時,模型創(chuàng)建與原始輸入圖像大小相同的特征。

?

SA Khan提出了一個魯棒的基于深度學習的解決方案,用于從文檔圖片中已識別的表格中提取行和列。表格圖片經(jīng)過預處理,然后使用門控遞歸單元(GRU)和具有softmax激活的全連接層發(fā)送到雙向遞歸神經(jīng)網(wǎng)絡。SF Rashid提供了一種新的基于學習的方法來識別不同文檔圖片中的表格內容。SR Qasim提出了一種基于圖網(wǎng)絡的表識別架構,作為典型神經(jīng)網(wǎng)絡的替代方案。S Raja提出了一種識別表格結構的方法,該方法結合了單元格檢測和交互模塊來定位單元格,并根據(jù)行和列預測它們與其他檢測到的單元格的關系。此外,增加了結構限制的損失功能的單元格識別作為額外的差異組件。Y Deng 測試了現(xiàn)有的端到端表識別的問題,他還強調了在這一領域需要一個更大的數(shù)據(jù)集。

?

?Y Zou的另一項研究呼吁開發(fā)一種利用全卷積網(wǎng)絡的基于圖像的表格結構識別技術。所示的工作將表格的行、列和單元格劃分。所有表格組件的估計邊界都通過連接組件分析進行了增強。根據(jù)行和列分隔符的位置,然后為每個單元格分配行和列號。此外,還利用特殊的算法優(yōu)化單元格邊界。

為了識別表中的行和列,KA Hashmi [118]提出了一種表結構識別的引導技術。根據(jù)本研究,通過使用錨點優(yōu)化方法,可以更好地實現(xiàn)行和列的定位。在他們提出的工作中,使用掩模R-CNN和優(yōu)化的錨點來檢測行和列的邊界。

?

另一項分割表格結構的努力是由W Xue撰寫的ReS2TIM論文,它提出了從表格中對句法結構的重建?;貧w每個單元格的坐標是這個模型的主要目標。最初使用該新技術構建了一個可以識別表格中每個單元格的鄰居的網(wǎng)絡。本研究給出了一個基于距離的加權系統(tǒng),這將有助于網(wǎng)絡克服與訓練相關的類不平衡問題。

C Tensmeyer提出了SPLERGE(Split and Merge),另一種使用擴展卷積的方法。他們的策略需要使用兩種不同的深度學習模型,第一個模型建立了表的網(wǎng)格狀布局,第二個模型決定了是否可能在許多行或列上進行進一步的單元格跨度。

?

Nassar為表格結構提供了一個新的識別模型。在兩個重要方面增強了PubTabNet端到端深度學習模型中最新的encoder-dual-decoder。首先,作者提供了一種全新的表格單元目標檢測解碼器。這使得它們可以輕松地訪問編程pdf中的表格單元格的內容,而不必訓練任何專有的OCR解碼器。作者稱,這種體系結構的改進使表格內容的提取更加精確,并使它們能夠使用非英語表。第二,基于transformer的解碼器取代了LSTM解碼器。

?

S Raja提出了一種新的基于目標檢測的深度模型,它被定制用于快速優(yōu)化并捕獲表格內單元格的自然對齊。即使使用精確的單元格檢測,密集的表格識別也可能仍然存在問題,因為多行/列跨行單元格使得捕獲遠程行/列關系變得困難。因此,作者也尋求通過確定一個獨特的直線的基于圖的公式來增強結構識別。作者從語義的角度強調了表格中空單元格的相關性。作者建議修改一個很受歡迎的評估標準,以考慮到這些單元格。為了促進這個問題的新觀點,然后提供一個中等大的進行了人類認知注釋后的評估數(shù)據(jù)集。

?

X Shen提出了兩個模塊,分別稱為行聚合(RA)和列聚合(CA)。首先,作者應用了特征切片和平鋪,對行和列進行粗略的預測,并解決高容錯性的問題。其次,計算信道的attention map,進一步獲得行和列信息。為了完成行分割和列分割,作者利用RA和CA構建了一個語義分割網(wǎng)絡,稱為行和列聚合網(wǎng)絡(RCANet)。

?

C Ma提出了一種識別表格的結構并從各種不同的文檔圖片中檢測其邊界的新方法。作者建議使用CornerNet作為一種新的區(qū)域候選網(wǎng)絡,為fasterR-CNN生成更高質量的候選表格,這大大提高了更快的R-CNN對表格識別的定位精度。該方法只利用最小的ResNet-18骨干網(wǎng)絡。此外,作者提出了一種全新的split-and-merge方法來識別表格結構。該方法利用一種新的spatial?CNN分割線預測模塊將每個檢測表格劃分為一個單元網(wǎng)格,然后使用一個GridCNN單元合并模塊來恢復生成單元格。它們的表格結構識別器可以準確地識別具有顯著空白區(qū)域的表格和幾何變形(甚至是彎曲的)表格,因為spatial?CNN模塊可以有效地向整個表圖片傳輸上下文信息。B Xiao假設一個復雜的表格結構可以用一個圖來表示,其中頂點和邊代表單個單元格以及它們之間的連接。然后,作者設計了一個conditional attention網(wǎng)絡,并將表格結構識別問題描述為一個單元格關聯(lián)分類問題(CATT-Net)。

?

Jain建議訓練一個深度網(wǎng)絡來識別表格圖片中包含的各種字符對之間的空間關系,以破譯表格的結構。作者提供了一個名為TSR-DSAW的端到端pipeline:TSR,通過深度空間的字符聯(lián)系,它以像HTML這樣的結構化格式生成表格圖片的數(shù)字表示。該技術首先利用文本檢測網(wǎng)絡,如CRAFT,來識別輸入表圖片中的每個字符。接下來,使用動態(tài)規(guī)劃,創(chuàng)建字符配對。這些字符配對在每個單獨的圖像中加下劃線,然后交給DenseNet-121分類器,該分類器被訓練來識別同行、同列、同單元格或無單元格等空間相關性。最后,作者將后處理應用于分類器的輸出,以生成HTML表格結構。

?

H Li將這個問題表述為一個單元格關系提取的挑戰(zhàn),并提供了T2,一種前沿的兩階段方法,成功地從數(shù)字保存的文本中提取表格結構。T2提供了一個廣泛的概念,即基本連接,準確地代表了單元格之間的直接關系。為了找到復雜的表格結構,它還構建了一個對齊圖,并使用了一個消息傳遞網(wǎng)絡。

?

實際場景應用中的表格結構識別,不僅要同時完成表格檢測和結構識別,還要對每個單元格的文本進行識別和信息抽取,其流程比以上的研究領域都更為復雜。

?

?

3.2.1先進的表格結構識別模型

?SPLERGE

?

ICDAR 2019的表格結構識別最佳論文《Deep Splitting and Merging for Table Structure Decomposition》提出了一對新的深度學習模型SPLERGE(分割和合并模型),它們給定一個輸入圖像,1)預測基本的表格網(wǎng)格模式,2)預測應該合并哪些網(wǎng)格元素來恢復跨越多行或列的單元格。該方法提出投影池作為分割模型的一個新組成部分,而網(wǎng)格池作為合并模型的一個新組成部分。雖然大多數(shù)完全卷積網(wǎng)絡依賴于局部證據(jù),但這些獨特的池化區(qū)域允許模型利用全局表格結構。該方法在PDF文檔的公共ICDAR 2013表格競賽數(shù)據(jù)集上取得了最先進的性能。在作者用來訓練模型的一個更大的私有數(shù)據(jù)集上,性能明顯優(yōu)于一個此前最先進的深度模型和一個主要的商業(yè)軟件系統(tǒng)。

?

SPLERGE算法原理:

論文提出的表格結構提取方法是SPLERGE,它由兩個深度學習模型組成,它們按順序執(zhí)行分割和合并操作(見圖1)。分割模型接受一個裁剪良好的表格的輸入圖像,并以跨越整個圖像的行和列分隔符的形式生成表格的網(wǎng)格結構。由于某些表包含生成單元格,因此作者將合并模型應用于拆分模型的網(wǎng)格輸出,以將相鄰的網(wǎng)格元素合并在一起,以恢復生成單元格。

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

分割模型(Split Model)

?

分割模型以任何維數(shù)H×W的圖像作為輸入,并產生兩個一維輸出信號:r∈[0,1]H和c∈[0,1]W。輸出信號r和c表示像素中的每一行(列)是邏輯表行(列)分隔符區(qū)域的一部分的概率。

分割模型由3個子網(wǎng)絡組成:

1)共享全卷積網(wǎng)絡(SFCN)

2)行投影網(wǎng)絡(RPN)

3)列投影網(wǎng)絡(CPN)

?

SFCN計算RPN和CPN都在使用的局部圖像特征。然后,RPN和CPN將這些局部特征進行進一步處理,以預測行和列分隔符(分別為r和c)。

?

SFCN由3個卷積層和7x7核的卷積層組成,最后一層進行膨脹系數(shù)為2的膨脹卷積。每一層產生18個特征映射,并使用ReLU激活函數(shù)。

?

膨脹卷積,比如池化,增加了網(wǎng)絡的感受野,但與池化不同的是,它們保留了輸入的空間分辨率。保留輸入的空間分辨率在表結構提取中很重要,因為許多列和行分隔器只有幾個像素寬。在[6]中,當調整初始輸入的大小以使分隔符區(qū)域更大時,獲得了更好的結果。有一個大的接受域也是至關重要的,因為確定行和列分隔符的位置可能需要全局上下文。例如,始終左對到相同位置的文本表示列分隔符。

?

SFCN的輸出被作為RPN和CPN的輸入。RPN的輸出為r,即每一行像素是行分隔符區(qū)域的一部分的概率。同樣,CPN的輸出為c。因為RPN和CPN具有相同的結構,除了投影和池化操作是在像素的行還是列上,所以只集中討論RPN。

?

盡管可以使用任意數(shù)量的塊,但本方法中的RPN是由5個鏈接在一起的塊組成的。根據(jù)經(jīng)驗,使用超過5個塊并沒有改善結果,同時作者使用了類似的過程來確定其他特定的架構選擇。為了簡化討論和說明,作者在實驗中使用了實際的超參數(shù)值,但也可以使用其他合理的值。在一個合理的范圍內改變超參數(shù)似乎并沒有對非正式實驗的結果產生顯著的影響。圖2顯示了由單個塊所執(zhí)行的操作。首先,輸入(并行)輸入3個卷積層,其膨脹因子為2/3/4,每個層產生6個特征映射。將每個展開卷積的輸出連接起來,得到18個特征映射。使用多種擴張因子可以使RPN學習多尺度特征,并增加其感受野,同時仍然采集更多的局部信息。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

接下來,RPN執(zhí)行1x2最大池化(CPN執(zhí)行2x1最大池化)。這減小了特征圖的寬度,但保持了高度,因此輸出信號r的大小為h。只有前三個塊執(zhí)行最大池,以確保寬度不會被下采樣。

?

然后,RPN通過1x1的卷積操作,然后進行投影池化(圖3),計算行特征(圖2的頂部分支)。投影池化的靈感來自于經(jīng)典布局分析中用于尋找空白間隙的投影輪廓操作。作者使用投影池化保持輸入的空間大小(而不是像投影剖面圖中那樣折疊到一維),并簡單地用它的行平均值替換輸入中的每個值。具體來說,

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

其中i,j分別是在特征映射F中的行列索引,1≤j≤W。作者稱\hat{F}

?

為F的行投影池化,并在每個特征映射上獨立應用此操作,這是典型的池化操作。以這種方式池化允許信息在圖像的整個寬度上傳播,這可能超過1000個像素。這些行特征被連接到最大池化操作的輸出中,這樣每個像素都具有局部和行全局特征。CPN執(zhí)行列投影池,類似地是,

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

圖2的底部分支顯示了塊如何產生行預測,盡管不是每個塊都這樣做。一個1x1的卷積產生一個單一的輸出映射,作者在其上執(zhí)行投影池。然后作者應用一個sigmoid函數(shù)來產生概率。由于每一行像素都包含一個唯一的概率,作者可以取一個垂直切片得到一個一維概率信號 r^n,其中n表示塊索引。為了使中間預測 r^n可用于第n + 1塊,作者還將2D中的概率連接到塊的輸出中。

?

在作者的實現(xiàn)中,只有最后3個塊產生輸出,即r3、r4、r5。在訓練過程中,作者對所有三個預測都應用了一個損失,但在訓練后,作者只使用最后一個預測r5來進行推理。這種迭代預測過程允許模型做出預測,然后優(yōu)化該預測。這些技術已經(jīng)成功地應用于以往的自然場景中的結構化關鍵點檢測任務。

?

?

?

?

1)?訓練:

SFCN、RPN和CPN子網(wǎng)絡在150 DPI的表格圖像以典型的監(jiān)督方式進行聯(lián)合訓練。作者假設圖像被裁剪為只包含表單元格,并排除不在單元格區(qū)域內的表格標題、標題和腳注。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

每個表都有注釋的GT一維信號r^*和c^*。GT的設計是為了最大化分隔區(qū)域的大小,而不相交于任何非跨行單元的內容,如圖4所示。這與傳統(tǒng)的單元格分隔符的概念相反,對于許多表來說,單元格分隔器是只有幾個像素厚的細線。預測小區(qū)域比預測大區(qū)域更困難,而且在無線表格的情況下,單元格分隔符的確切位置定義不明確。GT分隔符區(qū)域可能與跨越多行或列的單元格內容相交。分割模型的目標是恢復表格的基本網(wǎng)格,并且生成單元格由合并模型來處理。

?

損失函數(shù)是塊預測和GT信號之間的平均元素二值化交叉熵:

????

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

為了防止過擬合,作者修改方程3,在\lvert r^*_i-r_i \lvert <0.1時,將損失收縮為0。總損失是單個輸出損失的加權和:

?

?

?

?????

其中,作者設置了\lambda _4= 0.25和\lambda _3
= 0.1。作者使用ADAM優(yōu)化器隨機初始化訓練模型,進行大約10^6次權重更新。作者使用批處理大小為1,因為表格圖像有不同的空間大小。作者使用0.00075的初始學習率,每進行80K更新就會衰減0.75倍。

?

2)?推理:

一旦預測了r,就需要推斷行分隔符出現(xiàn)在哪個像素位置。為簡單起見,討論集中在r上,但同樣的程序也適用于c,以獲得列分隔符。為此,作者通過在r上執(zhí)行圖形切割分割,將圖像分割為行和行分隔符區(qū)域。然后,作者選擇與每個推斷的分隔符區(qū)域的中點對應的行像素位置。

為了創(chuàng)建分割r的圖,作者有H個節(jié)點排列在一個線性鏈中,其中每個節(jié)點都連接到它的兩個鄰居(除了兩端的兩個節(jié)點)。鄰域邊權值均勻設置為 \lambda _{gc}= 0.75。節(jié)點i連接到邊權值為ri的源節(jié)點和邊權值為1?r_i的接收節(jié)點。

?

合并模型(Merge Model)

????合并模型使用輸入圖像和分割模型的輸出來預測需要合并哪些網(wǎng)格元素,以恢復跨多行或列的單元格。輸入張量是表格圖像,輸出行/列概率(r、c),推理的行/列區(qū)域和預測的網(wǎng)格結構的連接。預測的概率r和c通過疊加(即,[r,r,……,r]))轉換為二維圖像。推理出的行/列區(qū)域被呈現(xiàn)為二進制掩模(類似于圖4中的紅色區(qū)域)。預測的網(wǎng)格結構被渲染為一個二進制掩模,其中每行和列分隔符區(qū)域的中點被渲染為一條7像素寬的線。此外,網(wǎng)格結構還用于確定模型的池化區(qū)域。

?

如果網(wǎng)格結構由M行和N列組成,則模型輸出兩個矩陣:

1)?D - probs。上下合并(大小為(M?1)×?N)

2)?R?-?probs。左右合并(大小為M?×(N?1))

?

D_{ij}是單元格(i,j)與單元格(i+1,j)合并的概率,R_{ij}是單元格(i,j)和(i,j+1)合并的概率。D的大小不是M×N,因為在任何一列中只有M?1對上下合并。

?

在作者的公式中,所有這些概率都是獨立的,即單個網(wǎng)格單元可以在多個方向上合并。

?

合并模型的體系結構類似于分割模型。有一組4個共享的卷積層(沒有膨脹),其中2x2的平均池化發(fā)生在第2層和第4層之后。然后,該模型有4個分支,每個分支預測一個單元格在特定方向上合并的M×N概率矩陣,即上、下、左或右。將這些矩陣稱為u,d,l,r。而作者的獨立性假設表明作者在方程式中將兩個個體的概率相乘。在公式5,6中,當兩個概率都接近于0時,這將引入優(yōu)化困難,所以作者計算D和R為

?

?

?

直觀地說,作者只預測,在單個分支輸出之間存在一致性的情況下,應該將一對單元格合并。

每個分支由3個塊組成,與圖2中所示的分割模型塊相似。不同之處在于,平行卷積層使用了1/2/3的膨脹因子,沒有執(zhí)行最大池化,投影池化被網(wǎng)格池化取代(圖5)。在網(wǎng)格池化中,每個像素位置替換其網(wǎng)格元素內的所有像素的平均值:

????

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

其中,Ω(i,j)是與(i,j)共享相同網(wǎng)格元素的所有像素的坐標集。在網(wǎng)格池之后,同一網(wǎng)格元素內的所有像素共享相同的值,這允許信息在每個單元格內傳播。隨后的卷積允許信息在相鄰的單元格之間傳播。為了生成給定分支的u,d,l或r矩陣,作者將每個網(wǎng)格元素中預測的周圍像素概率平均,并將它們排列在一個M×N矩陣中。與分割模型一樣,合并模型也執(zhí)行迭代輸出優(yōu)化,其中塊2和塊3產生輸出預測。

1)?訓練:

因為分裂和合并模型是打算按順序使用的,所以作者使用分裂模型產生的網(wǎng)格結構來訓練合并模型。構造GT D和R矩陣(見圖6),作者

1)?在表格迭代所有生成的單元格

2)?確定網(wǎng)格元素相交的GT邊界框

3)?對適當?shù)姆较颍O置每個單元合并的概率為1

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

在Split模型中,每個輸出的損失函數(shù)是平均(裁剪)元素級的二進制交叉熵(公式4)??倱p失是

????

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

因為生成單元格只出現(xiàn)在用于訓練模型的私有數(shù)據(jù)集中的15%的表格中,所以作者對這個數(shù)據(jù)集進行子采樣,以便合并模型的50%的訓練集至少有一對需要合并的單元格。訓練超參數(shù)與分割模型相似。

?

以0.5的概率對D和R進行閾值計算,并合并指示的單元格。網(wǎng)絡預測沒有對生成的合并只產生矩形單元格的約束,因此在后處理中添加了額外的合并,以確保生成的表結構只有矩形單元格。例如,將3個網(wǎng)格元素合并在一起形成一個L形單元格,然后將與第4個元素合并,以創(chuàng)建一個跨越2行2列的單元格。

?

實驗:

?

ICDAR2013:

實驗在ICDAR 2013數(shù)據(jù)集上的結果來自于在私有數(shù)據(jù)集上訓練的模型。作者試圖驗證改進的性能來自于一個更好的深度模型,而不僅僅是來自一個更大的訓練集。作者通過重新實現(xiàn)DeepDeSRT模型,并在與本文提出的模型相同的數(shù)據(jù)上進行訓練來做到這一點。

?

表一顯示了模型在ICDAR 2013數(shù)據(jù)集(任務2)上的結果。帶有-PDF后綴的方法表明使用了額外的PDF渲染的輸入通道。該數(shù)據(jù)集的評估度量是對檢測到的鄰接關系的f-score。粗略地說,這測量的是正確檢測到的相鄰單元格對的百分比,正確檢測表示兩個單元格都被正確地分割并被識別為相鄰單元格。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

對于這個數(shù)據(jù)集,合并模型未能為分割模型的輸出提供足夠的后處理。在執(zhí)行預測的合并后,后處理結合了額外的單元格,以防止單元格在最終輸出中形成L形。在ICDAR 2013數(shù)據(jù)集中的幾個大標題區(qū)域中,由于一些錯誤的成對合并預測產生了L形,大量的單個單元群被合并為單個單元群。作者沒有進一步細化啟發(fā)式方法以防止L形圖形的出現(xiàn),而是實現(xiàn)了一些簡單的啟發(fā)式方法,可以替代合并模型。這些啟發(fā)式包括

?

?合并預測的分隔符通過文本的單元格。

?

?當絕大多數(shù)成對的單元格(在第3行之后)都為空白或每對只有一個單元格是非空白時,合并相鄰的列。這將將一個內容列與(大部分)空白列合并。

?

?在第一行(可能是標題行)中,將非空白單元格與相鄰的空白單元格合并。

?

?在垂直對齊的文本之間具有連續(xù)的空白間隙的分割列。

?

圖8中顯示了一些由啟發(fā)式方法固定的示例表。雖然Split模型在識別表格網(wǎng)格方面表現(xiàn)良好,但它有時會犯一些很容易糾正的錯誤,并且不能自己處理生成單元格。當結合簡單的啟發(fā)式方法來處理這些情況時,它實現(xiàn)了95.26%的f-measure,而之前的最佳結果為94.60%。Merge模型未能從私有集合推廣到ICDAR 2013數(shù)據(jù)集,但如表二所示,它確實提高了私有集合的性能。圖9顯示了一些通過Split-PDF +啟發(fā)式對無線表的預測示例,這些預測比有線表更難識別。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

與PDF信息(文本、路徑、圖像通道)作為分割模型的輸入和不是時,有很大的性能差異。由于在私有集合上的差異不那么大(表II),作者得出結論,PDF輸入通道的有效性取決于數(shù)據(jù)集。ICDAR表主要是排列的,有更大的標題,與訓練數(shù)據(jù)集相比,可能有明顯的視覺外觀。因此,額外的PDF信息可能在不熟悉的領域中更有幫助,因為文本和路徑元素是顯式的輸入,而不需要由模型直觀地推斷。

?

作者復現(xiàn)了DeepDeSRT表結構模型,并在與作者提出的模型相同的私有數(shù)據(jù)上對其進行了訓練。然而,即使作者探索了各種后處理閾值和訓練超參數(shù),作者也無法獲得合理的性能。在DeepDeSRT,他們報告的FM為91.44%,超過了34個表的隨機子集,因此不能進行直接比較。作者認為,這一差距表明,作者不能忠實地重現(xiàn)他們的模型,以進行公平的比較。然而,作者使用的訓練集非常不同,并且在私有集合和ICDAR 2013數(shù)據(jù)集之間存在顯著差異。這些原因可以解釋性能差距,但差距足夠大,以至于作者不確定作者的實現(xiàn)是否是Deep DeSRT的忠實復現(xiàn),因此作者省略了精確的性能數(shù)字,以避免直接比較。

?

私有數(shù)據(jù)集:

在這個數(shù)據(jù)集上,作者使用精度和對正確檢測到的細胞的召回率來評估方法。作者還報告了具有完美精確度和召回率的表的百分率。如果一個預測的邊界框(BB)完全只包含一個GT單元格內容BB,那么它將是一個正確的預測。特別是,與多個GT BB相交或不完全包含任何GT BB的預測BB被標記為false positive。不匹配的GT BB被標記為false negative。因為空白單元格沒有被手動注釋,所以作者排除了不與任何GT BB相交的預測BB。這樣,如果方法正確地預測了未標記的空白單元格,那么它們就不會受到懲罰。

?

表二顯示了測試集上5000個表格的結果。根據(jù)每個表計算報告的準確率和召回率,然后取平均值。作者無法找到之前工作的任何官方實現(xiàn),所以為了進行比較,作者使用了商業(yè)軟件系統(tǒng)Acrobat Pro DC和作者復現(xiàn)的DeepDeSRT模型。

?

作者提出的模型的所有變體在所有指標上都顯著優(yōu)于兩個baseline。作者還看到,因為使用分割模型不能單獨處理具有跨行單元格的表,合并模型顯著提高了表格的準確性。對于需要合并的表,每個表需要合并的平均數(shù)量比ICDAR 2013要少得多,從而導致更少的L形預測。作者還觀察到,使用PDF信息作為輸入確實帶來了改善,但比ICDAR 2013的數(shù)據(jù)更輕微。這可能反映了這樣一個事實,即ICDAR 2013和私有集合之間的域差異在渲染的PDF中更為明顯,但當只檢查文本或路徑圖像通道時,差異就減少了。這表明這種方法可能是有效的。

?

?

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

結論:

?

論文提出了一種新的表格結構提取方法。它由一對深度學習模型組成,這些模型一起將一個表格圖像分割成基本的單元格網(wǎng)格,然后將單元格合并在一起,以恢復跨越多行和多列的單元格。該模型的關鍵見解是在表格圖像的大區(qū)域上匯集信息,如像素的整個行/列或先前預測的單元格區(qū)域。當在ICDAR 2013表格競賽數(shù)據(jù)集上評估分割模型時,實現(xiàn)了最先進的性能。

?

實驗還證明了PDF信息,如頁面元素是否是文本/路徑/圖像,可以編碼為深度網(wǎng)絡的輸入,并提高性能。但是,如果這些信息不可用(例如,掃描的文檔),該模型只能使用灰度圖像作為輸入。最后,證明了合并模型對從web中提取的表格私有數(shù)據(jù)集是有效的。

?

TSRFormer

?

2022年微軟研究院的論文《TSRFormer: Table Structure Recognition with Transformers》提出了一種新的表格結構識別(TSR)方法,稱為TSRFormer,以從各種表格圖像中穩(wěn)健地識別具有幾何畸變的復雜表格的結構。與以往的方法不同,該方法將表格分割線預測定義為線回歸問題而不是圖像分割問題,并提出了一種新的基于兩階段DETR的分割預測方法,稱為SeparatorREgressionTRansformer(SepRETR),以直接預測表圖像中的分割線。為了使兩階段DETR框架有效地適合于分割線預測任務,作者提出了兩個改進:1)先驗增強匹配策略來解決DETR的慢收斂問題;2)一種新的交叉注意模塊直接從高分辨率卷積特征圖中采樣特征,從而在較低計算成本的情況下實現(xiàn)較高的定位精度。

?

TSRFormer算法原理:

如圖1所示,TSRFrorter包含兩個關鍵組件:1)基于SepRETR的分割模塊,用于預測每個輸入表圖像中的所有行和列分離線;2)基于關系網(wǎng)絡的單元合并模塊來恢復生成單元。這兩個模塊被連接到一個由ResNet-FPN主干生成的共享卷積特征圖P2上

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

基于SepRETR的分割模塊

?

????在分割模塊中,將兩個并行分支附加到共享特征映射P2上,分別預測行和列分隔符。每個分支由三個模塊組成:(1)特征增強模塊,生成上下文增強特征圖;(2)基于SepRETR的分割線預測模塊;(3)輔助分割線分割模塊。

特征增強:如圖1所示,作者添加一個3×3卷積層和3個重復下采樣塊,每個塊由1×2最大池化層、3×3卷積層和ReLU激活函數(shù)組成,經(jīng)過P_2后依次生成下采樣特征圖P_2\inR^{{\frac H4} X{\frac W {32}}XC}。然后,將兩個級聯(lián)空間CNN(SCNN)模塊連接到P_2^{'}上,通過向整個特征圖上向左右方向傳播上下文信息,進一步增強其特征表示能力。以右方向為例,SCNN模塊沿寬度方向將P_2^{'}分割成\frac W{32}

?

片,并從左向右依次傳播信息。對于每個切片,它首先被發(fā)送到一個內核大小為9×1的卷積層,然后通過元素級的添加與下一個切片合并。在SCNN模塊的幫助下,輸出上下文增強的特征映射E_{row}中的每個像素都可以利用來自兩邊的結構信息來獲得更好的表示能力。

?

?基于SepRETR的分離線預測:如圖3所示,作者使用三條平行的曲線線分別表示每行分隔符的頂邊界、中心線和底邊界。每條曲線用K= 15個點表示,其x坐標分別設置為x_1,x_2,……x_k.對于每一行分隔符,其3K點的y坐標由作者的SepRETR模型直接預測。在這里,作者為第i個x的x坐標設置了X_i=\frac W{16}×{i}。對于列分支中的y坐標,作者只需要用H替換W。如圖2所示,作者的SepRETR包含兩個模塊:一個參考點檢測模塊和一個用于分割線回歸的DETR解碼器。

?

參考點檢測模塊首先嘗試從增強的特征映射E_{row}
中預測每個行分隔符的參考點。將檢測到的參考點的特征作為對象查詢,并輸入DETR解碼器,為每個查詢生成增強的嵌入。這些增強的查詢嵌入然后通過前饋網(wǎng)絡獨立地解碼為分離線坐標和類標簽。這兩個模塊都連接到一個共享的高分辨率特征圖上,該特征圖是通過在

E_{row}^{'}\in R×W×C^{'}中依次添加一個1×1的卷積層和一個上采樣層而生成的。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

1)?參考點檢測。該模塊試圖預測沿著原始圖像的寬度方向的固定位置X_r上的每個行分隔符的參考點。為此,E_{row}^{'}
X_r^{th}列中的每個像素被輸入一個sigmoid分類器,以預測一個分數(shù),以估計一個參考點位于其位置的概率(i,x_r)。在這里,作者在所有實驗中設置超參數(shù)x_r
\frac H4進行行線預測,y_r為\frac H4進行列線預測。考慮到E_{row}^{'}
X_r^{th}列中每個像素的概率,作者通過在該列上使用7×1最大池化層來應用非最大抑制來刪除重復的參考點。之后,選擇前100個行參考點,并通過0.05的分數(shù)閾值進行進一步過濾。其余的行參考點作為行分割線回歸模塊中的DETR解碼器的目標查詢。

?

2)?分割線回歸。為了提高效率,作者不使用transformer編碼器來增強CNN主干網(wǎng)輸出的特性。相反,作者將高分辨率特征圖E_{row}^{'}
x_1^{th},x_2^{th},...,x_K^{th}列連接起來,以創(chuàng)建一個新的降采樣特征圖C_{row}\in R^{ H×K×C^{'}}.然后,將E_{row}^{'}
從位置上提取的行參考點的特征視為對象查詢,輸入3層轉換器解碼器,與C_{row}交互,進行分離線回歸。位置的位置嵌入(x,y)是通過連接歸一化坐標\frac xW和\frac yH的正弦嵌入來生成的,這與DETR中的相同。經(jīng)transformer解碼器增強后,將每個查詢的特征分別饋入兩個前饋網(wǎng)絡中進行分類和回歸。對于行分隔符回歸的y坐標的GT被歸一化為\frac {y_{gt}}H。

?

先驗增強的二分圖匹配:從輸入圖像中給定一組預測及其對應的GT對象,DETR使用Hungarian算法為系統(tǒng)預測分配GT標簽。然而,作者發(fā)現(xiàn)DETR中原始的二分匹配算法在訓練階段是不穩(wěn)定的,即在不同的訓練時期可以對同一圖像中的不同對象進行查詢,這大大降低了模型的收斂速度。作者發(fā)現(xiàn),在第一階段檢測到的大多數(shù)參考點在不同的訓練階段都位于對應行分隔符的頂部和底部邊界之間,因此作者利用這些先驗信息直接將每個參考點與最近的GT分隔符進行匹配。這樣,匹配的結果在訓練過程中就會變得穩(wěn)定。具體來說,作者通過測量每個參考點和每個GT分隔符之間的距離來生成一個成本矩陣。如果一個參考點位于GT分隔符的頂部和底部邊界之間,則成本被設置為從該參考點到該分隔符的GT參考點的距離。否則,成本將設置為INF?;诖顺杀揪仃嚕髡呤褂肏ungarian算法在參考點和GT分割之間產生一個最優(yōu)的二分匹配。在得到最優(yōu)匹配結果后,作者進一步去掉了具有成本INF的對,以繞過不合理的標簽分配。在后續(xù)的實驗表明,通過作者的預先增強的二分匹配策略,作者的SepRETR的收斂速度變得更快。

?

輔助分割線分割:這個輔助分支旨在預測每個像素是否位于任何分隔符的區(qū)域內。作者在E_{row}
之后添加了一個上采樣操作,然后是一個1×1的卷積層和一個sigmoid分類器,來預測一個二進制掩模M_{row}\in R^{ W×H×1}來計算這種輔助損失。

?

基于關系網(wǎng)絡的單元格合并

????在分割線預測后,作者將行線與列線相交,生成一個單元格網(wǎng)格,并使用關系網(wǎng)絡通過合并一些相鄰的單元格來恢復生成單元格。如圖1所示,作者首先使用RoI對齊算法從P_2中根據(jù)每個單元的邊界盒提取7×7×C特征圖,然后輸入每層512個節(jié)點的兩層MLP,生成512d特征向量。這些單元特征可以排列在具有N行和M列的網(wǎng)格中,形成特征圖F_{cell}\in R^{ N×M×512},然后通過三個重復的特征增強塊來獲得更廣泛的上下文信息,并輸入關系網(wǎng)絡來預測相鄰單元之間的關系。每個特征增強塊包含三個并行分支,其中分別有一個行級最大池化層、一個列級最大池化層和一個3x3卷積層。這三個分支的輸出特征映射被連接在一起,并通過一個1×1的卷積層進行卷積以進行降維。在關系網(wǎng)絡中,對于每一對相鄰的細胞,作者將它們的特征和18d空間相容性特征連接起來。然后在這個特征上應用一個二值分類器來預測這兩個單元格是否應該合并。該分類器采用了一個2個隱藏層的MLP,每個隱藏層有512個節(jié)點和一個sigmoid激活函數(shù)。

?

損失函數(shù)

對于分割模塊,作者以行分隔符預測為例,并將相應的損失項表示為L_*^{row}。同樣,作者也可以計算列分隔符預測的損失,記為L_*^{col}。參考點檢測:采用focal loss的一種變體來訓練行參考點檢測模塊:

其中N_r為行分割線數(shù),α和β分別為設置為2和4的兩個超參數(shù),P_i和P_i^*為E_{row}^{'}
x_r^{th}列中i^{th}像素的預測和GT標簽。在這里,P_i^*被非標準化高斯函數(shù)增強,它在分隔符的邊界處被截斷,以減少在GT參考點位置周圍的懲罰。具體來說,讓(y_k,x_r)表示k^{th}行分隔符的GT參考點,它是該行分隔符的中心線與垂直線x=X_r的交點。以k^{th}行分隔符頂部和底部邊界的垂直距離作為其厚度,記為w_k。那么,P_i^*

可以定義如下:

?

?

?

其中,

?

自適應于分隔器的厚度,以確保該行中的分隔符P_i^*不小于0.1。

?

輔助分割損失:行分隔符的輔助分割損失是一個二進制交叉熵損失:

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

其中S_{row}表示M_{row}的采樣像素集,M_{{row}^{(x,y)}}和M_{{row}^{(x,y)}}^*分別表示S_{row}像素(x,y)的預測和地面真實標簽。僅當M_{{row}^{(x,y)}}^*的像素位于行分隔符內時,它才為1,否則為0。

?

?

?

總損失:transformer中的所有模塊都可以聯(lián)合訓練。整體損失函數(shù)如下:

其中,\lambda 是作者在實驗中設置為0.2的控制參數(shù)。

?

實驗:

數(shù)據(jù)集:

SciTSR包含12,000個訓練樣本和3,000個從科學文獻中裁剪出來的軸對齊表的測試樣本。作者還從測試集中選擇了716個復雜的表,以創(chuàng)建一個更具挑戰(zhàn)性的測試子集,稱為SciTSRCOMP。在這個數(shù)據(jù)集中,單元格鄰接關系度量被用作評價度量。

?

PubTabNet包含500,777個訓練圖像、9,115個驗證圖像和9,138張測試圖像,它們是通過匹配科學文章的XML和PDF表示而生成的。所有的表格都是以軸向對齊的。由于沒有發(fā)布測試集的注釋,所以作者只報告驗證集上的結果。論文提出了一種新的基于樹編輯距離的相似度(TEDS)度量,該度量既可以識別表結構識別,也可以識別表結構識別OCR錯誤。然而,由于不同的TSR方法使用不同的OCR模型不同,考慮OCR誤差可能會導致不公平的比較。最近的一些工作提出了一種改進的TEDS度量TEDS-Struct,僅通過忽略OCR誤差來評估表結構識別精度。作者還使用這個修改后的度量值來評估作者在這個數(shù)據(jù)集上的方法。

WTW包含了從自然復雜場景中收集到的10,970張訓練圖像和3,611張測試圖像。該數(shù)據(jù)集只關注有邊界的表格對象,并包含表id、表格單元格坐標和行/列信息的注釋信息。作者從原始圖像中裁剪表區(qū)域用于訓練和測試,并使用單元鄰接關系(IoU=0.6)作為該數(shù)據(jù)集的評估指標。

?

In-House數(shù)據(jù)集包含40,590張訓練圖像和1,053張測試圖像,這些圖像是從異構文檔圖像中裁剪出來的,包括科學出版物、財務報表、發(fā)票等。這個數(shù)據(jù)集中的大多數(shù)圖像都是由相機捕獲的,所以這些圖像中的表格可能是傾斜的,甚至是彎曲的。一些例子見圖4和圖5。cTDaR TrackB度量用于評估。作者使用GT文本框作為表格內容,并基于IoU=0.9報告結果。

?

?

實驗結果:

作者在公共數(shù)據(jù)集SciTSR、PubTabNet和WTW上將提出的TSRFormer與幾種最先進的方法進行了比較。對于SciTSR,由于其他方法提供的評估工具包含兩種不同的設置(考慮或忽略空單元格),并且以前的一些工作沒有解釋他們使用了哪一種設置,所以實驗報告了這兩種設置的結果。如表1所示,論文的方法分別在測試集和復雜的子集上取得了最先進的性能。在SciTSR-COMP上的良好結果表明,論文的方法對復雜的表具有更強的魯棒性。

?

?

?

在PubTabNet上,如表2所示,論文的方法在TEDS-Struct評分上達到了97.5%,比LGPMA(ICDAR 2021科學文獻解析任務B競賽中的獲勝者)高0.8%。

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

?

為了驗證論文的方法在自然場景中邊界扭曲/彎曲表格對象的有效性,作者在WTW數(shù)據(jù)集上進行了實驗,表3的結果表明,論文的方法在f1-score上比cycle-centernet(專門為此場景設計)好1.0%

?

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

為了驗證TSRFrormer對更具有挑戰(zhàn)性的無邊界表的有效性,作者重新實現(xiàn)了另一種基于分割和合并的方法SPLERGE,并在幾個數(shù)據(jù)集上與論文的方法進行了比較。為了公平比較,作者利用TSRFromer相同的模型架構,只實現(xiàn)了另一個分割線預測模塊,該模塊首先通過行/列級池增強特征映射,然后通過對水平/垂直切片中的像素進行分類來預測軸對齊的分隔符。如表4所示,重新實現(xiàn)的SPLERGE可以在SciTSR和PubTabNet數(shù)據(jù)集上取得競爭性的結果,而在具有挑戰(zhàn)性的內部數(shù)據(jù)集上,它仍然比TSRFromer低11.4%。

?

?

?

圖5和圖4中的定性結果表明,論文的方法對于具有復雜結構、無邊界單元格、大空白空間、空白或跨行單元格以及扭曲甚至彎曲形狀的表格具有魯棒性。

常用的表格檢測識別方法——表格結構識別方法 (下)

?

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

消融實驗:

基于SepRETR的分割模塊的有效性:為了驗證基于回歸的分離預測模塊的有效性,作者采用RobusTabNet,去掉基于分割線回歸模塊SepRETR,直接使用輔助分離分割分支進行分離線預測,實現(xiàn)了另一個基于分割的分割模塊。啟發(fā)式mask-to-line模塊也與RobusTabNet中的相同。表5中的結果表明,論文的分離回歸模塊明顯優(yōu)于基于分割的分割模塊。圖6顯示了一些定性的結果。后處理模塊很難很好地處理這種低質量的mask。相比之下,基于回歸的方法是啟發(fā)式的,對這些具有挑戰(zhàn)性的表魯棒。

?

?

?

?

SepRETR設計的消融研究:論文還進行了以下消融研究,以進一步研究SepRETR中三個關鍵成分的貢獻,即transformer解碼器,用于cross-attention和集合預測的特征。對于沒有集預測的實驗,實驗設計了一個啟發(fā)式的標簽分配規(guī)則。如果一個參考點位于分隔符的兩個邊界之間,則其對應的查詢將被視為一個正樣本,而回歸目標是它所在的分隔符。否則,對此參考點的查詢是一個負樣本。由于這種策略可以為一個分割行分配多個查詢,為了刪除重復的結果,實驗將NMS應用于從每個預測行的兩個邊界生成的多邊形。如表6所示,使用transformer解碼器來幫助每個查詢同時利用全局上下文和本地信息,可以顯著提高基于SepRETR的分割模塊的性能。此外,表6的最后兩行顯示,使用采樣的高分辨率特征圖C_{row}和C_{col}可以進一步提高f1-score 0.5%。雖然沒有集預測的結果是好的,但作者發(fā)現(xiàn)這種方法對一些啟發(fā)式設計非常敏感,如標簽分配規(guī)則和NMS。相反,用集預測損失訓練SepRETR不僅可以獲得更好的結果,而且可以擺脫這種啟發(fā)式設計的局限性。

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

先驗增強的二分圖匹配策略的有效性:作者通過訓練基于SepRETR的分割模塊進行了一些實驗。如表7所示,在DETR中使用原始策略訓練模型40個epoch比訓練20個epoch的精度更高,這意味著分割模塊沒有完全收斂。相比之下,使用所提出的先驗增強匹配策略可以獲得更好的效果。經(jīng)過20和40個epoch訓練的模型之間的性能差距較小,表明這兩個模型收斂得很好,這表明先驗增強的匹配策略可以使收斂速度更快

常用的表格檢測識別方法——表格結構識別方法 (下)

?

?

結論

論文提出了一種新的表格結構識別方法,它包含兩個有效的組件:一個基于SepRETR的分割線預測分割模塊和一個基于關系網(wǎng)絡的用于跨行單元格恢復的單元格合并模塊。與以往基于圖像分割的分割線檢測方法相比,基于SepRETR的分割線回歸方法可以在不依賴啟發(fā)式mask-to-line模塊的情況下實現(xiàn)更高的TSR精度。實驗結果表明,所提出的先驗增強的二分匹配策略可以有效地提高兩階段DETR的收斂速度。因此,論文的方法在三個公共基準SciTSR、PubTabNet和WTW測試上取得了最先進的性能。在更具挑戰(zhàn)性的真實內部數(shù)據(jù)集中,進一步驗證了論文的方法對具有復雜結構、無邊界單元格、大空白空間、空白或跨行單元格以及扭曲或彎曲形狀的表格的魯棒性。

?

?

?

?

?

參考文獻

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M?Mahmouda,?M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

C. Tensmeyer, V. I. Morariu, B. Price, S. Cohen, T. Martinez,?Deep

splitting and merging for table structure decomposition, 2019 Inter

national Conference on Document Analysis and Recognition (ICDAR),

IEEE, 2019, pp. 114–121.

Lin W H, Sun Z, Ma C X, Li M Z, Wang j w, Sun L, Huo Q.?TSRFormer: Table Structure Recognition with Transformers.arXiv:2208.04921v1 [cs.CV] 9 Aug 2022

?

?

?

?

?

到了這里,關于常用的表格檢測識別方法——表格結構識別方法 (下)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 深度學習應用篇-計算機視覺-OCR光學字符識別[7]:OCR綜述、常用CRNN識別方法、DBNet、CTPN檢測方法等、評估指標、應用場景

    深度學習應用篇-計算機視覺-OCR光學字符識別[7]:OCR綜述、常用CRNN識別方法、DBNet、CTPN檢測方法等、評估指標、應用場景

    【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調優(yōu)、歸一化算法、卷積模型、序列模型、預訓練模型、對抗神經(jīng)網(wǎng)絡等 專欄詳細介紹:【深度學習入門到進階】必看系列,含激活函數(shù)、優(yōu)化策略、損失函數(shù)、模型調優(yōu)、歸一化算法、卷積模型、

    2024年02月09日
    瀏覽(29)
  • OCR表格識別(三)——文本檢測與文本識別理論學習

    OCR表格識別(三)——文本檢測與文本識別理論學習

    圖像識別其實是一個從低層次到高層級特征學習的過程。底層級的特征比較抽象,二高層及的特征比較概念化。在圖像識別過程中,也就是從圖像像素特征,到圖像的形狀、輪廓,然后到概念,并進行整合,分類,最終得到目標特征,識別到人臉等。再怎么復雜的信息都是由

    2024年02月05日
    瀏覽(21)
  • Python Opencv 圖片識別表格:邊框線檢測

    Python Opencv 圖片識別表格:邊框線檢測

    Python數(shù)據(jù)開發(fā)工作需求對圖片做邊框線檢查和圖片中的直線,非常實用建議收藏 下面需要用模塊,先安裝一下: 該示例代碼使用邊緣檢測和霍夫變換提取圖片中的直線,然后根據(jù)直線數(shù)量來判斷是否有表格。這只是一個簡單的示例,具體的判斷方法和算法需要根據(jù)具體情況

    2024年02月16日
    瀏覽(21)
  • Table Transformer做表格檢測和識別實踐

    Table Transformer做表格檢測和識別實踐

    計算機視覺方面的三大頂級會議:ICCV,CVPR,ECCV.統(tǒng)稱ICE CVPR 2022文檔圖像分析與識別相關論文26篇匯集簡介 論文: PubTables-1M: Towards comprehensive table extraction from unstructured documents是發(fā)表于CVPR上的一篇論文 作者發(fā)布了兩個模型,表格檢測和表格結構識別。 論文講解可以參考【論文閱

    2024年02月04日
    瀏覽(19)
  • 計算機視覺的應用10-圖片中的表格結構識別與提取實戰(zhàn)

    計算機視覺的應用10-圖片中的表格結構識別與提取實戰(zhàn)

    大家好,我是微學AI,今天給大家介紹一下計算機視覺的應用10-圖片中的表格結構識別與提取實戰(zhàn),表格結構識別在信息處理領域中具有廣泛應用,但由于表格的多樣性和復雜性,以及難以準確解析的布局和格式,傳統(tǒng)的方法往往存在一定的局限性。本項目基于深度學習技術

    2024年02月13日
    瀏覽(21)
  • 保護Excel表格的4種常用方法

    保護Excel表格的4種常用方法

    今天來說說,根據(jù)不同需求,我們可以給Excel表格設置保護的4種常用方法,記得保存收藏,總有一個適合你。 方法一: 如果不想Excel表格被他人隨意打開,可以設置“打開密碼”,這樣只有輸入設置的密碼才能打開表格。 首先,在Excel表格中依次選擇菜單中的【文件】-【信

    2024年02月10日
    瀏覽(29)
  • python: 處理表格日期的常用場景和方法

    1. 提取日期 有時候我們只需要從日期中提取出年、月、日等信息,以便更好地進行數(shù)據(jù)分析和可視化??梢允褂?dt 屬性實現(xiàn): 2. 計算時間差 在時間序列分析中,我們通常需要計算時間差,例如兩個日期之間的天數(shù)、小時數(shù)等??梢允褂?timedelta 實現(xiàn): 3. 將日期列設為索引

    2023年04月15日
    瀏覽(37)
  • 三種目標檢測方法(基于傳統(tǒng)數(shù)字圖像處理的識別方法、基于傳統(tǒng)機器學習的識別方法和基于深度學習的識別方法)的區(qū)別

    問題描述:圖像檢測分為了基于傳統(tǒng)數(shù)字圖像處理的識別方法、基于傳統(tǒng)機器學習的識別方法和基于深度學習的識別方法,但是有時迷惑三者的區(qū)別是什么呢? 問題解答: 第一,基于傳統(tǒng)數(shù)字圖像處理的識別方法和其他兩者的區(qū)分在于基于傳統(tǒng)圖像處理方法沒有損失函數(shù),

    2024年02月12日
    瀏覽(32)
  • 死鎖檢測的常用3種方法

    死鎖檢測的常用3種方法

    死鎖(Dead Lock)是指兩個或兩個以上的進程在執(zhí)行過程中,由于競爭資源或者由于彼此通信而造成的一種阻塞的現(xiàn)象,若無外力作用,它們都將無法推進下去。此時稱系統(tǒng)處于死鎖狀態(tài)或系統(tǒng)產生了死鎖,這些永遠在互相等待的進程稱為死鎖進程。 接下來,我們先來演示一下

    2024年02月03日
    瀏覽(22)
  • 【圖像檢測】計算機視覺地質斷層結構的自動增強和識別【含Matlab源碼 4026期】

    【圖像檢測】計算機視覺地質斷層結構的自動增強和識別【含Matlab源碼 4026期】

    ?博主簡介:熱愛科研的Matlab仿真開發(fā)者,修心和技術同步精進,Matlab項目合作可私信。 ??個人主頁:海神之光 ??代碼獲取方式: 海神之光Matlab王者學習之路—代碼獲取方式 ??座右銘:行百里者,半于九十。 更多Matlab仿真內容點擊?? Matlab圖像處理(進階版) 路徑規(guī)劃

    2024年03月21日
    瀏覽(42)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包