——書接上文
?
Training
半監(jiān)督網絡的訓練分兩步進行:a)對標記數(shù)據(jù)獨立訓練學生模塊,由教師模塊生成偽標簽;b)結合兩個模塊的訓練,得到最終的預測結果。
?
偽標簽框架
?
?
實驗
?
數(shù)據(jù)集:
TableBank是文檔分析領域中用于表識別問題的第二大數(shù)據(jù)集。該數(shù)據(jù)集有417,000個通過arXiv數(shù)據(jù)庫爬蟲過程注釋。該數(shù)據(jù)集具有來自三類文檔圖像的表格:LaTeX圖像(253,817)、Word圖像(163,417),以及兩者的組合(417,234)。它還包括一個用于識別表格的結構的數(shù)據(jù)集。在論文的實驗中,只使用進行表檢測的數(shù)據(jù)。
PubLayNet是一個大型公共數(shù)據(jù)集,訓練集中有335,703張圖像,驗證集中有11,240張圖像,測試集中有11,405張圖像。它包括注釋,如多邊形分割和圖形的邊界框,列出標題、表格和來自研究論文和文章的圖像文本。使用coco分析技術對該數(shù)據(jù)集進行了評估。在實驗中,作者只使用了86,460個表注釋中的102,514個。
DocBank是一個包含5000多個帶注釋的文檔圖像的大型數(shù)據(jù)集,旨在訓練和評估諸如文本分類、實體識別和關系提取等任務。它包括標題、作者姓名、隸屬關系、摘要、正文等方面的注釋。
ICDAR-19:表檢測和識別(cTDaR)競賽于2019年由ICDAR組織。對于表格檢測任務(TRACKA),在比賽中引入了兩個新的數(shù)據(jù)集(現(xiàn)代和歷史數(shù)據(jù)集)。為了與之前的最先進的方法進行直接比較,實驗提供了在IoU閾值范圍為0.5-0.9的現(xiàn)代數(shù)據(jù)集上的結果。
?
實驗設置細節(jié):
?
實驗使用在ImageNet數(shù)據(jù)集上預先訓練的ResNet-50為主干的可變形DETR作為檢測框架,以評估半監(jiān)督方法的有效性。在PubLayNet、ICDAR-19、DocBank和TableBank的三類數(shù)據(jù)集上進行訓練。實驗使用10%、30%和50%的標記數(shù)據(jù),其余的作為未標記數(shù)據(jù)。偽標記的閾值設置為0.7。將所有實驗的訓練周期設置為150,在第120期的學習率降低了0.1倍。應用強增強作為水平翻轉,調整大小,去除斑塊,裁剪,灰度和高斯模糊。實驗使用水平翻轉來應用弱增強。可變形DETR解碼器輸入的query數(shù)的值N被設置為30,因為它能給出最好的結果。除非另有說明,實驗都使用mAP(AP50:95)度量來評估結果。
實驗結果討論:
?
TableBank:
實驗提供了對不同比例的標簽數(shù)據(jù)的表庫數(shù)據(jù)集的所有分割的實驗結果。還比較了基于transformer的半監(jiān)督方法與以前的基于深度學習的監(jiān)督和半監(jiān)督方法。此外,實驗給出了10%標記數(shù)據(jù)的TableBank-both數(shù)據(jù)集在所有IoU閾值下的結果。表1提供了半監(jiān)督方法在TableBank-latex, TableBank-word, 和TableBank-both數(shù)據(jù)集,分別10%、30%和50%標記數(shù)據(jù)時的實驗結果。它表明,在10%標記數(shù)據(jù)時,TableBank-both數(shù)據(jù)集的AP50值最高,為95.8%,TableBank-latex為93.5%,TableBank-word有92.5%。
?
?
表格的半監(jiān)督學習的定性分析如圖5所示。圖5的(b)部分有一個與行和列結構相似的矩陣,網絡將該矩陣檢測為一個表格,給出false positive檢測結果。在這里,不正確的檢測結果表明網絡不能提供正確的表格區(qū)域檢測。表2給出了這種半監(jiān)督方法對10%標簽數(shù)據(jù)上的所有數(shù)據(jù)集的不同IoU閾值的結果。在TableBank10%標記數(shù)據(jù)集上使用不同的ResNet-50骨干的半監(jiān)督網絡的準確率、召回率和f1-score的可視化比較如圖6所示。
?
?
?
?
?
與以前的監(jiān)督方法和半監(jiān)督方法的比較
?
表3比較了ResNet-50主干上基于深度學習的監(jiān)督網絡和半監(jiān)督網絡。還將在10%、30%和50%TableBank-both數(shù)據(jù)集標簽數(shù)據(jù)上訓練的監(jiān)督可變形DETR與使用可變形transformer的半監(jiān)督方法進行了比較。結果表明,基于attention機制的半監(jiān)督方法使用候選生成過程和后處理步驟,如非最大抑制(NMS),取得了可觀的結果。
?
?
?
PubLayNet:
實驗討論了在PubLayNet表類數(shù)據(jù)集上對不同標記數(shù)據(jù)百分比的實驗結果。還比較了基于transformer的半監(jiān)督方法與以前的基于深度學習的監(jiān)督和半監(jiān)督方法。此外,實驗給出了10%標記數(shù)據(jù)的PubLayNet數(shù)據(jù)集上的所有IoU閾值的結果。表4提供了半監(jiān)督方法的結果,該方法對PubLayNet表類數(shù)據(jù)使用可變形transformer來處理標記數(shù)據(jù)的不同百分比。在這里,10%、30%和50%的標記數(shù)據(jù)的AP50值分別為98.5%、98.8%和98.8%
?
?
?
此外,半監(jiān)督網絡在10%的標記的PubLayNet數(shù)據(jù)集上,在不同的IoU閾值上進行訓練。表5給出了半監(jiān)督方法對10%標記數(shù)據(jù)上的PubLayNet表類的不同IoU閾值的結果。在PubLayNet表類的10%標記數(shù)據(jù)集上,在不同的IoU閾值上使用具有ResNet-50主干的可變形transformer網絡的半監(jiān)督網絡的準確率、召回率和f1-score的可視化比較如圖6(b)所示。這里,藍色表示不同IoU閾值的準確率結果,紅色表示不同IoU閾值的召回結果,綠色表示對不同IoU閾值的f1-score結果。
?
?
?
與以前的監(jiān)督方法和半監(jiān)督方法的比較
?
表6比較了使用ResNet-50骨干網的PubLayNet表類上基于深度學習的監(jiān)督網絡和半監(jiān)督網絡。還比較了在10%、30%和50%的PubLayNet表類標簽數(shù)據(jù)上訓練的有監(jiān)督的可變形detr與使用可變形transformer的半監(jiān)督方法。它表明,半監(jiān)督方法不使用候選和后處理步驟,如非最大抑制(NMS),提供了有競爭力的結果。
?
?
?
?
DocBank:
?
實驗討論了在DocBank數(shù)據(jù)集上的不同標簽百分比數(shù)據(jù)的實驗結果。在表7中比較了基于transformer的半監(jiān)督方法與以前的基于cnn的半監(jiān)督方法。
?
?
?
此外,還比較了表8中對不同比例的標記數(shù)據(jù)的半監(jiān)督方法與之前針對不同數(shù)據(jù)集的表格檢測和文檔分析方法。雖然不能直接比較作者的半監(jiān)督方法與以前的監(jiān)督文檔分析方法。然而,可以觀察到,即使有50%的標簽數(shù)據(jù),作者也獲得了與以前的監(jiān)督方法類似的結果。
?
?ICDAR-19:
實驗還評估了在Modern Track A數(shù)據(jù)集上的表格檢測方法。作者總結了該方法在不同百分比的標簽數(shù)據(jù)下的定量結果,并將其與表9中以前的監(jiān)督表格檢測方法進行了比較。在更高的IoU閾值0.8和0.9下評估結果。為了與以前的表格檢測方法進行直接比較,作者還在100%的標簽數(shù)據(jù)上評估了論文的方法。論文方法在100%標簽數(shù)據(jù)的IoU閾值上獲得了92.6%的準確率和91.3%的召回率。
?
?
?
?
消融實驗:
?
偽標記置信閾值
?
閾值(稱為置信閾值)在決定生成的偽標簽的準確性和數(shù)量之間的平衡方面起著重要的作用。隨著這個閾值的增加,通過過濾器的樣本將會更少,但它們的質量將會更高。相反,較小的閾值將導致更多的樣本通過,但false positive的可能性更高。從0.5到0.9的各種閾值的影響如表10所示。根據(jù)計算結果,確定最優(yōu)閾值為0.7。
?
?
可學習query數(shù)量的影響
?
在分析中,作者研究了改變作為可變形DETR解碼器中輸入的query數(shù)量的影響。圖7通過改變作為可變形DETR解碼器中輸入的對象query的數(shù)量來比較預測結果。當query數(shù)N設置為30時,達到最佳性能;偏離此值會導致性能下降。表11顯示并分析了不同對象query數(shù)量的結果。為N選擇一個較小的值可能會導致模型無法識別特定的對象,從而對其性能產生負面影響。另一方面,選擇一個較大的N值可能會導致模型由于過擬合而表現(xiàn)不佳,因為它會錯誤地將某些區(qū)域分類為對象。此外,在師生模塊中,該半監(jiān)督自注意機制的訓練復雜度依賴于對象query的數(shù)量,并通過最小化對象query的數(shù)量來降低復雜度而得到提高。
?
?
?
結論
?
本文介紹了一種利用可變形transformer對文檔圖像進行表格檢測的半監(jiān)督方法。該方法通過將偽標簽生成框架集成到一個簡化的機制中,減輕了對大規(guī)模注釋數(shù)據(jù)的需要,并簡化了該過程。同時生成偽標簽產生了一個被稱為“飛輪效應”的動態(tài)過程,隨著訓練的進行,一個模型不斷改進另一個模型產生的偽邊框。在該框架中,使用兩個不同的模塊學生和教師,對偽類標簽和偽邊界框進行了改進。這些模塊通過EMA功能相互更新,以提供精確的分類和邊界框預測。結果表明,當應用于TableBank和PubLayNet訓練數(shù)據(jù)的10%、30%和50%時,該方法的性能超過了監(jiān)督模型的性能。此外,當對PubLayNet的10%標記數(shù)據(jù)進行訓練時,該模型的性能與當前基于cnn的半監(jiān)督基線相比較。在未來,作者的目標是研究標記數(shù)據(jù)的比例對最終性能的影響,并開發(fā)出以最小數(shù)量的標記數(shù)據(jù)有效運行的模型。此外,作者還打算采用基于transformer的半監(jiān)督學習機制來進行表結構識別任務。
?
?
?
?
參考文獻:
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M?Mahmouda,?M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022
S A?Siddiqui , M I Malik,S Agne , A?Dengel and?S?Ahmed.?DeCNT:?Deep Deformable CNN for Table Detection.?in?IEEE Access, vol.6,?pp.74151-74161, [DOI: 10.1109/ACCESS.2018.2880211]文章來源:http://www.zghlxwxcb.cn/news/detail-450205.html
T Shehzadi, K A Hashmi, D Stricker, M Liwicki , and M Z Afzal.Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer.arXiv:2305.02769v2 [cs.CV] 7 May 2023文章來源地址http://www.zghlxwxcb.cn/news/detail-450205.html
到了這里,關于常用的表格檢測識別方法 - 表格區(qū)域檢測方法(下)的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!