摘要
科學(xué)知識主要存儲在書籍和科學(xué)期刊中,通常以PDF的形式。然而PDF格式會導(dǎo)致語義信息的損失,特別是對于數(shù)學(xué)表達(dá)式。我們提出了Nougat,這是一種視覺transformer模型,它執(zhí)行OCR任務(wù),用于將科學(xué)文檔處理成標(biāo)記語言,并證明了我們的模型在新的科學(xué)文檔數(shù)據(jù)集上的有效性。
引言
存儲在pdf中的知識,信息提取有難度,其中數(shù)學(xué)表達(dá)式的語義信息會丟失?,F(xiàn)有的OCR方法沒有辦法識別公式。為此,我們引入了Nougat,這是一種基于transformer的模型,能將文檔頁面的圖像轉(zhuǎn)換為格式化的標(biāo)記文本。這篇論文的主要貢獻(xiàn)如下:
1) 發(fā)布能夠?qū)DF轉(zhuǎn)換為輕量級標(biāo)記語言的預(yù)訓(xùn)練模型;
2) 我們引入了一個將pdf轉(zhuǎn)為標(biāo)記語言的pipeline;
3) 我們的方法僅依賴于頁面的圖像,支持掃描的論文和書籍;
模型
以前的VDU(視覺文檔理解)方法要么依賴于第三方OCR工具,要么專注于文檔類型,例如:收據(jù)、發(fā)票或類似表單的文檔。最近的研究表明,不需要外部OCR,在VDU中也能實現(xiàn)有競爭力的結(jié)果。
如圖1所示,我們的模型基于donut構(gòu)建,是一個encoder-decoder模型,允許端到端的訓(xùn)練。
編碼器
視覺encoder首先接受一張文檔圖像,裁剪邊距并調(diào)整圖像大小成固定的尺寸(H,W);如果圖像小于矩形,那么增加額外的填充以確保每個圖像具有相同的維度。我們使用了Swin Transformer,將圖像分為不重疊的固定大小的窗口,然后應(yīng)用一系列的自注意力層來聚集跨窗口的信息。該模型輸出一個embedding patch ,其中d是隱層維度,N是patch的數(shù)目。
解碼器
使用帶有cross-attention的mBART解碼器解碼,然后生成一系列tokens,最后tokens被投影到vocabulary的大小,產(chǎn)生logits。我們使用作為decoder;
SetUP
我們用96 DPI的分辨率渲染文檔圖像。由于swin transformer的限制性,我們將input size設(shè)置為(896,672);文檔圖像先resize,然后pad到所需的大小,這種輸入大小允許我們使用Swin基礎(chǔ)模型架構(gòu)。我們用預(yù)訓(xùn)練的權(quán)重初始化了模型,Transformer解碼器的最大序列長度是4096。這種相對較大的規(guī)模是因為學(xué)術(shù)研究論文的文本可能是密集的,尤其表格的語法是token密集的。BART解碼器是一個10層的decoder-only transformer。整個架構(gòu)共有350M參數(shù);在推理的時候,文本使用greedy decoding生成的。
訓(xùn)練:使用AdamW優(yōu)化器訓(xùn)練3個epoch,batch_size是192;初始化學(xué)習(xí)率是;
數(shù)據(jù)增強(qiáng)
在圖像識別任務(wù)中,使用數(shù)據(jù)增強(qiáng)來提高泛化性是有效的。由于我們的訓(xùn)練集只有學(xué)術(shù)論文,所以我們需要應(yīng)用一系列的transformation來模擬掃描文檔的缺陷和可變性。這些變換包括:腐蝕,膨脹,高斯噪聲,高斯模糊,位圖轉(zhuǎn)換,圖像壓縮,網(wǎng)格失真和彈性變換。每個都有一個固定的概率來應(yīng)用給給定圖像。每個轉(zhuǎn)換的效果如圖所示:
在訓(xùn)練過程中,我們會用隨機(jī)替換token的方式給groud truth增加擾動。
數(shù)據(jù)
目前沒有pdf頁面和其對應(yīng)的source code的成對數(shù)據(jù)集。因為我們根據(jù)arxiv上的開源文章,建立了自己的數(shù)據(jù)集。對于layout多樣性,我們引入了PMC開源非商業(yè)數(shù)據(jù)集的子集。在預(yù)訓(xùn)練過程中,也引入了一部分行業(yè)文檔庫數(shù)據(jù)。
ARXIV
我們從arxiv上收集了174w+的pape,收集其源代碼并編譯pdf。為了保證格式的一致性,我們首先用latex2html處理源文件,并將他們轉(zhuǎn)為html文件。這一步很重要,因為他們是標(biāo)準(zhǔn)化的并且去掉了歧義,尤其是在數(shù)學(xué)表達(dá)式中。轉(zhuǎn)換過程包括:替換用戶定義的宏,添加可選括號,規(guī)范化表以及用正確的數(shù)字替換引用。然后我們解析html文件,并將他們轉(zhuǎn)換為輕量級標(biāo)記語言,支持標(biāo)題,粗體和斜體文本、公式,表等各種元素。這樣,我們能保證源代碼格式是正確的,方便后續(xù)處理。整個過程如圖所示:
PMC
我們還處理了來自PMC的文章,其中除了PDF文件之外,還可以獲得具有語義信息的XML文件。我們將這些文件解析為與arxiv文章相同的標(biāo)記語言格式,我們選擇使用PMC少得多的文章,因為XML文件并不總是具有豐富的語義信息。通常,方程和表格存儲為圖像,這些情況檢測起來并非易事,這導(dǎo)致我們決定將PMC文字的使用限制在預(yù)訓(xùn)練階段。
IDL
IDL是行業(yè)產(chǎn)生的文檔集合。這個僅用在預(yù)訓(xùn)練階段,用于教模型基本的OCR;
分頁
我們根據(jù)pdf的頁中斷來分割markdown標(biāo)記,然后將每個pdf頁面轉(zhuǎn)為圖像,來獲得圖像-標(biāo)記pair。在編譯過程中,Latex會自動確定pdf的頁面中斷。由于我們沒有重新編譯每篇論文的Latex源,我們必須啟發(fā)式地將源文件拆分為對應(yīng)不同頁面的部分。為了實現(xiàn)這一點,我們使用PDF頁面上的嵌入文本和源文本進(jìn)行匹配。文章來源:http://www.zghlxwxcb.cn/news/detail-701005.html
然而,PDF中的圖像和表格可能不對應(yīng)他們在源代碼中的位置。為了解決這個問題,我們在預(yù)處理階段去掉了這些元素。然后將識別的標(biāo)題和XML文件中的標(biāo)題進(jìn)行比較,并根據(jù)他們的Levenshtein距離進(jìn)行匹配。一旦源文檔被分成單個頁面,刪除的圖形和表格就會在每個頁面的末尾重新插入。文章來源地址http://www.zghlxwxcb.cn/news/detail-701005.html
到了這里,關(guān)于論文閱讀《Nougat:Neural Optical Understanding for Academic Documents》的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!