国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<sub id="kk3kb"><tr id="kk3kb"><li id="kk3kb"></li></tr></sub>

<rp id="kk3kb"></rp>

<style id="kk3kb"></style>

<strike id="kk3kb"></strike>

論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》

2年前作者：一只榮分類：Toy博客閱讀(16)違法舉報

這篇具有很好參考價值的文章主要介紹了論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

摘要

科學(xué)知識主要存儲在書籍和科學(xué)期刊中，通常以PDF的形式。然而PDF格式會導(dǎo)致語義信息的損失，特別是對于數(shù)學(xué)表達(dá)式。我們提出了Nougat，這是一種視覺transformer模型，它執(zhí)行OCR任務(wù)，用于將科學(xué)文檔處理成標(biāo)記語言，并證明了我們的模型在新的科學(xué)文檔數(shù)據(jù)集上的有效性。

引言

存儲在pdf中的知識，信息提取有難度，其中數(shù)學(xué)表達(dá)式的語義信息會丟失?，F(xiàn)有的OCR方法沒有辦法識別公式。為此，我們引入了Nougat,這是一種基于transformer的模型，能將文檔頁面的圖像轉(zhuǎn)換為格式化的標(biāo)記文本。這篇論文的主要貢獻(xiàn)如下：

1) 發(fā)布能夠?qū)DF轉(zhuǎn)換為輕量級標(biāo)記語言的預(yù)訓(xùn)練模型；

2) 我們引入了一個將pdf轉(zhuǎn)為標(biāo)記語言的pipeline；

3) 我們的方法僅依賴于頁面的圖像，支持掃描的論文和書籍；

模型

以前的VDU(視覺文檔理解)方法要么依賴于第三方OCR工具，要么專注于文檔類型，例如：收據(jù)、發(fā)票或類似表單的文檔。最近的研究表明，不需要外部OCR，在VDU中也能實現(xiàn)有競爭力的結(jié)果。

如圖1所示，我們的模型基于donut構(gòu)建，是一個encoder-decoder模型，允許端到端的訓(xùn)練。

論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》,論文閱讀,論文閱讀

編碼器

視覺encoder首先接受一張文檔圖像，裁剪邊距并調(diào)整圖像大小成固定的尺寸(H,W)；如果圖像小于矩形，那么增加額外的填充以確保每個圖像具有相同的維度。我們使用了Swin Transformer，將圖像分為不重疊的固定大小的窗口，然后應(yīng)用一系列的自注意力層來聚集跨窗口的信息。該模型輸出一個embedding patch ，其中d是隱層維度，N是patch的數(shù)目。

解碼器

使用帶有cross-attention的mBART解碼器解碼，然后生成一系列tokens，最后tokens被投影到vocabulary的大小，產(chǎn)生logits。我們使用作為decoder；

SetUP

我們用96 DPI的分辨率渲染文檔圖像。由于swin transformer的限制性，我們將input size設(shè)置為(896,672)；文檔圖像先resize,然后pad到所需的大小，這種輸入大小允許我們使用Swin基礎(chǔ)模型架構(gòu)。我們用預(yù)訓(xùn)練的權(quán)重初始化了模型，Transformer解碼器的最大序列長度是4096。這種相對較大的規(guī)模是因為學(xué)術(shù)研究論文的文本可能是密集的，尤其表格的語法是token密集的。BART解碼器是一個10層的decoder-only transformer。整個架構(gòu)共有350M參數(shù)；在推理的時候，文本使用greedy decoding生成的。

訓(xùn)練：使用AdamW優(yōu)化器訓(xùn)練3個epoch，batch_size是192；初始化學(xué)習(xí)率是;

數(shù)據(jù)增強(qiáng)

在圖像識別任務(wù)中，使用數(shù)據(jù)增強(qiáng)來提高泛化性是有效的。由于我們的訓(xùn)練集只有學(xué)術(shù)論文，所以我們需要應(yīng)用一系列的transformation來模擬掃描文檔的缺陷和可變性。這些變換包括：腐蝕，膨脹，高斯噪聲，高斯模糊，位圖轉(zhuǎn)換，圖像壓縮，網(wǎng)格失真和彈性變換。每個都有一個固定的概率來應(yīng)用給給定圖像。每個轉(zhuǎn)換的效果如圖所示：

論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》,論文閱讀,論文閱讀

在訓(xùn)練過程中，我們會用隨機(jī)替換token的方式給groud truth增加擾動。

數(shù)據(jù)

目前沒有pdf頁面和其對應(yīng)的source code的成對數(shù)據(jù)集。因為我們根據(jù)arxiv上的開源文章，建立了自己的數(shù)據(jù)集。對于layout多樣性，我們引入了PMC開源非商業(yè)數(shù)據(jù)集的子集。在預(yù)訓(xùn)練過程中，也引入了一部分行業(yè)文檔庫數(shù)據(jù)。

ARXIV

我們從arxiv上收集了174w+的pape，收集其源代碼并編譯pdf。為了保證格式的一致性，我們首先用latex2html處理源文件，并將他們轉(zhuǎn)為html文件。這一步很重要，因為他們是標(biāo)準(zhǔn)化的并且去掉了歧義，尤其是在數(shù)學(xué)表達(dá)式中。轉(zhuǎn)換過程包括：替換用戶定義的宏，添加可選括號，規(guī)范化表以及用正確的數(shù)字替換引用。然后我們解析html文件，并將他們轉(zhuǎn)換為輕量級標(biāo)記語言，支持標(biāo)題，粗體和斜體文本、公式，表等各種元素。這樣，我們能保證源代碼格式是正確的，方便后續(xù)處理。整個過程如圖所示：

論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》,論文閱讀,論文閱讀

PMC

我們還處理了來自PMC的文章，其中除了PDF文件之外，還可以獲得具有語義信息的XML文件。我們將這些文件解析為與arxiv文章相同的標(biāo)記語言格式，我們選擇使用PMC少得多的文章，因為XML文件并不總是具有豐富的語義信息。通常，方程和表格存儲為圖像，這些情況檢測起來并非易事，這導(dǎo)致我們決定將PMC文字的使用限制在預(yù)訓(xùn)練階段。

IDL

IDL是行業(yè)產(chǎn)生的文檔集合。這個僅用在預(yù)訓(xùn)練階段，用于教模型基本的OCR；

分頁

我們根據(jù)pdf的頁中斷來分割markdown標(biāo)記，然后將每個pdf頁面轉(zhuǎn)為圖像，來獲得圖像-標(biāo)記pair。在編譯過程中，Latex會自動確定pdf的頁面中斷。由于我們沒有重新編譯每篇論文的Latex源，我們必須啟發(fā)式地將源文件拆分為對應(yīng)不同頁面的部分。為了實現(xiàn)這一點，我們使用PDF頁面上的嵌入文本和源文本進(jìn)行匹配。

然而，PDF中的圖像和表格可能不對應(yīng)他們在源代碼中的位置。為了解決這個問題，我們在預(yù)處理階段去掉了這些元素。然后將識別的標(biāo)題和XML文件中的標(biāo)題進(jìn)行比較，并根據(jù)他們的Levenshtein距離進(jìn)行匹配。一旦源文檔被分成單個頁面，刪除的圖形和表格就會在每個頁面的末尾重新插入。文章來源地址http://www.zghlxwxcb.cn/news/detail-701005.html

到了這里，關(guān)于論文閱讀《Nougat：Neural Optical Understanding for Academic Documents》的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM論文閱讀
標(biāo)題：NICE-SLAM: Neural Implicit Scalable Encoding for SLAM 作者：Zihan Zhu， Songyou Peng，Viktor Larsson — Zhejiang University 來源：CVPR 代碼：https://pengsongyou.github.io/nice-slam 時間：2022 神經(jīng)隱式（Neural implicit representations）表示最近在同步定位和地圖繪制（SLAM）方面有一定的進(jìn)展，但現(xiàn)有方法
2024年02月15日
瀏覽(28)
【論文閱讀】ELA: Efficient Local Attention for Deep Convolutional Neural Networks
論文鏈接：ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者：Wei Xu, Yi Wan 單位：蘭州大學(xué)信息科學(xué)與工程學(xué)院，青海省物聯(lián)網(wǎng)重點實驗室，青海師范大學(xué) 引用：Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,
2024年04月15日
瀏覽(27)
[arxiv論文閱讀] LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding
Yang, S., Liu, J., Zhang, R., Pan, M., Guo, Z., Li, X., Chen, Z., Gao, P., Guo, Y., Zhang, S. (2023). LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. In arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2312.14074 最近，大型語言模型（LLMs）和多模態(tài)大型語言模型（MLLMs）在指令跟隨和 2D圖像理解
2024年02月02日
瀏覽(33)
【論文閱讀】A Survey on Dynamic Neural Networks for Natural Language Processing
A Survey on Dynamic Neural Networks for Natural Language Processing 發(fā)表單位：University of California, San Diego 作者：Canwen Xu, Julian McAuley 發(fā)表會議： EACL 2023 論文地址：http://arxiv.org/abs/2202.07101 發(fā)布時間：2022.2.15(v1) 2023.2.24 (v2) 掌握主要內(nèi)容有效縮小大型Transformer模型是自然語言處理最新進(jìn)展的主
2024年02月03日
瀏覽(18)
論文閱讀：Dense Depth Priors for Neural Radiance Fields from Sparse Input Views
CVPR2022 首先我們由一組室內(nèi)的RGB圖像 { I i } i = 0 N ? 1 , I i ∈ [ 0 , 1 ] H × W × 3 {I_i}^{N-1}_{i=0}, I_i in [0,1]^{H times W times 3} { I i ? } i = 0 N ? 1 ? , I i ? ∈ [ 0 , 1 ] H × W × 3 。通過SFM的方法，我們可以獲得相機(jī)位姿 p i ∈ R 6 p_i in mathbb{R}^6 p i ? ∈ R 6 , 內(nèi)參矩陣 K i ∈ R 3 ×
2024年02月09日
瀏覽(24)
【論文閱讀】N-BEATS Neural basis expansion analysis for interpretable time series forecasting
原始題目：N-BEATS: Neural basis expansion analysis for interpretable time series forecasting 中文翻譯：N-BEATS:可解釋時間序列預(yù)測的神經(jīng)基展開分析發(fā)表時間：2020-02-20 平臺：arXiv 文章鏈接：http://arxiv.org/abs/1905.10437 開源代碼：https://github.com/servicenow/n-beats 我們專注于使用深度學(xué)習(xí)解決單變量
2024年03月11日
瀏覽(20)
論文閱讀 - Understanding Diffusion Models: A Unified Perspective
假設(shè)給定了一個數(shù)據(jù)集 { x 1 , x 2 , x 3 , . . . , x N } {x_1, x_2, x_3, ..., x_N} { x 1 ? , x 2 ? , x 3 ? , ... , x N ? } ，在圖像生成任務(wù)中，每個 x i x_i x i ? 就是一張圖片，每個點都是獨立采樣于真實數(shù)據(jù)分布 p ( x ) p(x) p ( x ) 的。生成模型的目的就是通過有限的數(shù)據(jù)集 { x i } {x_i}
2024年02月12日
瀏覽(30)
論文閱讀：PointCLIP: Point Cloud Understanding by CLIP
?CVPR2022 鏈接：https://arxiv.org/pdf/2112.02413.pdf ????????最近，通過對比視覺語言預(yù)訓(xùn)練(CLIP)的零鏡頭學(xué)習(xí)和少鏡頭學(xué)習(xí)在2D視覺識別方面表現(xiàn)出了鼓舞人心的表現(xiàn)，即學(xué)習(xí)在開放詞匯設(shè)置下將圖像與相應(yīng)的文本匹配。然而，在二維大規(guī)模圖像文本對的預(yù)訓(xùn)練下，CLIP識別能否推
2024年02月04日
瀏覽(28)
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 論文閱讀
題目：GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 作者：Zhichao Yin and Jianping Shi 來源：CVPR 時間：2018 我們提出了 GeoNet，這是一種聯(lián)合無監(jiān)督學(xué)習(xí)框架，用于視頻中的單目深度、光流和自我運(yùn)動估計。這三個組件通過 3D 場景幾何的性質(zhì)耦合在一起，由我們的框
2024年02月09日
瀏覽(22)
【論文簡述】Cross-Attentional Flow Transformer for Robust Optical Flow（CVPR 2022）
1. 第一作者： Xiuchao Sui、Shaohua Li 2. 發(fā)表年份： 2021 3. 發(fā)表期刊： arxiv 4. ：光流、Transformer、自注意力、交叉注意力、相關(guān)體 5. 探索動機(jī)：由于卷積的局部性和剛性權(quán)重，有限的上下文信息被納入到像素特征中，并且計算出的相關(guān)性具有很高的隨機(jī)性，以至于大多數(shù)
2024年02月03日
瀏覽(95)

<delect id="45huh"></delect>