国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀:Vary論文閱讀筆記

這篇具有很好參考價值的文章主要介紹了論文閱讀:Vary論文閱讀筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

引言

論文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Paper | Github | Demo

許久不精讀論文了,內(nèi)心一直想找個專門的時間來細細品讀自己感興趣的論文?,F(xiàn)在想來,無異于是自己騙自己了,因為根本就不存在那個專門的時間。所以改變最好的時候就是現(xiàn)在。

因為自己一直在做OCR相關(guān),因為對LLM中文檔智能相關(guān)的工作比較感興趣。因此,就以曠視出的這篇工作Vary作為切入點,借此來學習LLM在文檔智能領(lǐng)域的相關(guān)工作。

整體結(jié)構(gòu)圖

論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記
Figure 1:主要想說明Vary在產(chǎn)生vocabulary時,采用兩階段策略:在第一階段,通過自回歸方法,先產(chǎn)生一個新的vocabulary,在第二階段,將新的vocabulary與原始的融合,作為一個新的vocabulary。

論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記

Figure 2: 第一階段中,Vary為Vary-tiny,主要用來產(chǎn)生新的vocabulary;而Vary-base主要基于new vision vocabulary來處理各種visual tasks。
論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記
Vary-tiny中,使用在VIT-Det上預訓練過的SAM作為image encoder,為了和之后CLIP-L對齊,又加了兩個Conv。

Vary這篇工作整體思路較為簡單,更多地方就要去看源碼的細節(jié)實現(xiàn)了。

?? 不過想要吐槽一下的是,論文中竟然和Nougat作比較。Vary和Nougat參數(shù)量來看簡直不是一個量級啊。轉(zhuǎn)過來想,也是,畢竟這個方向目前也沒有一個除Nougat之外的基線了。

數(shù)據(jù)集構(gòu)造

之所以將這部分作為一個單獨章節(jié)來說,是因為這個工作的難點就在于此。Nougat和Vary都沒有開源所用的數(shù)據(jù)集。Nougat好在給出了一些制作數(shù)據(jù)集的相關(guān)代碼。Vary目前一點也沒有放出來。所以這里也就只能根據(jù)論文來簡單看看怎么做的了。

Vary-tiny部分

該部分主要聚焦于fine-grained perception,例如文檔智能和圖表理解,說是為了彌補CLIP的不足,因此這部分網(wǎng)絡輸入都是圖像,沒有文本輸入的分支。

在訓練Vary-tiny部分,作者將文檔和圖表數(shù)據(jù)作為positive samples,自然場景圖像作為negative數(shù)據(jù)。

Document Data數(shù)據(jù)構(gòu)造

由于該部分需要的數(shù)據(jù)為:輸入是文檔圖像,輸出是對應的markdown格式文本。目前沒有公開的中英文文檔數(shù)據(jù)集,因為作者自行構(gòu)建的。

其中,英文文檔主要來源于arXiv和CC-MAIN-2021-31-PDFUNTRUNCATED兩部分。中文文檔主要來源于互聯(lián)網(wǎng)上的電子書。

處理方法:PyMuPDF庫提取PDF每頁信息,同時用pdf2image工具將PDF對應頁轉(zhuǎn)為圖像。(感覺這里處理的較為粗糙,有較大提升空間)

最終構(gòu)建了100w中文和100w英文文檔圖像對,用于訓練Vary-tiny部分。

Chart Data構(gòu)造

作者觀察到LVLM不太擅長處理圖表理解問題,尤其是中文圖表。因此,本篇工作著重將其作為一個重點任務。

構(gòu)建圖表的image-text pair對方案:采用matplotlibpyecharts作為渲染工具。渲染了matplotlib風格的中英文圖表250k條,渲染了pyeharts風格中英文圖表500k條。另外,構(gòu)建圖表的ground truth為一個python字典形式。其中圖表中的文本,例如title, x-axis和y-axis都是從NLP語料庫中隨機選的。

論文中給出了一些圖表推理結(jié)果樣例:

論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記

Negative natural image選取

因為CLIP-VIT對于自然圖像較為擅長。為了確保新引入的vocabulary不影響已有效果,因此,作者在訓練Vary-Tiny時,引入了自然圖像作為negative image-text pairs。

作者從COCO數(shù)據(jù)集中選取了120k圖像,其所對應的文本從以下幾條中隨機選?。?/p>

“It’s an image of nature”;
“Here’s a nature picture”;
“It’s a nature photo”;
“This is a natural image”;
“That’s a shot from nature”.

Vary-base部分

論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記

文檔數(shù)據(jù)

上述收集到的文檔數(shù)據(jù),直接提取的PDF中文本信息。所以數(shù)據(jù)中更多的是文本數(shù)據(jù),表格和公式類型較少。因此在訓練Vary-base階段,作者采用LaTeX來渲染了一批比較有針對性的數(shù)據(jù)。具體做法如下:

  1. 收集一些arXiv上tex文件源文件,使用正則提取其中的表格、數(shù)學公式和文本內(nèi)容
  2. 將以上內(nèi)容重新用pdflatex工具渲染到新的模板上。作者整理了10+模版。

作者將圖像對應的ground truth存儲在mmd格式中。mmd格式是一種加強版的md格式,可以直接渲染md中的LaTeX代碼編寫的表格和公式。

最終,作者收集整理了50w英文數(shù)據(jù)和40w中文數(shù)據(jù)。

語義相關(guān)的圖表數(shù)據(jù)渲染

在Vary-tiny階段,作者批量渲染了圖表數(shù)據(jù)來訓練Vary-tiny中的vocabulary。但是那些數(shù)據(jù)存在標題、橫縱坐標語義相關(guān)性較差的問題。因此,在本階段,作者使用了GPT-4來產(chǎn)生語義相關(guān)性較強的語料來渲染高質(zhì)量的圖表數(shù)據(jù)。

不得不說,這一步很有借鑒意義的。

General Data

該部分使用的數(shù)據(jù)分為兩部分:

  • 預訓練階段:使用的來自LAION-COCO的image-text pair數(shù)據(jù)
  • SFT階段:使用的LLaVA-80k和LLaVA-CC665k

寫在最后

本來還想結(jié)合論文源碼來進一步查看做法的。一直沒有找到合適的表達方法來合理有序地表達代碼和論文的關(guān)系。暫時擱置。

剛才看Vary源碼,發(fā)現(xiàn)作者更新了兩個新的工作:Vary-toy和 Vary-Family系列,兩者關(guān)系如下:

論文閱讀:Vary論文閱讀筆記,論文學習,論文閱讀,筆記
值得期待和學習。文章來源地址http://www.zghlxwxcb.cn/news/detail-804655.html

到了這里,關(guān)于論文閱讀:Vary論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    [論文閱讀筆記18] DiffusionDet論文筆記與代碼解讀

    擴散模型近期在圖像生成領(lǐng)域很火, 沒想到很快就被用在了檢測上. 打算對這篇論文做一個筆記. 論文地址: 論文 代碼: 代碼 首先介紹什么是擴散模型. 我們考慮生成任務, 即encoder-decoder形式的模型, encoder提取輸入的抽象信息, 并嘗試在decoder中恢復出來. 擴散模型就是這一類中的

    2023年04月08日
    瀏覽(26)
  • 論文閱讀:Segment Anything之閱讀筆記

    論文閱讀:Segment Anything之閱讀筆記

    引言 論文:Segment Anything是Meta出的圖像語義分割的算法。這個算法因其強大的zero-shot泛化能力讓人驚艷,這不抽空拿來學習了一下。 該算法的代碼寫得很清楚、簡潔和規(guī)范,讀來讓人賞心悅目。推薦去看源碼,很有意思。 本篇文章,將以問答形式來解讀閱讀過程中遇到的困

    2024年02月13日
    瀏覽(28)
  • 論文閱讀筆記2:NetVLAD

    題目:NetVLAD: CNN Architecture for Weakly Supervised Place Recognition:、 團隊: PSL Research University/Tokyo Institute of Technology 解決的問題: 我們解決了大規(guī)模視覺位置識別的問題,其任務是快速準確地識別給定查詢照片的位置 創(chuàng)新點: 這篇文章主要有3個創(chuàng)新點: 1. 為場景識別任務構(gòu)造出

    2024年02月11日
    瀏覽(25)
  • 論文閱讀筆記整理(持續(xù)更新)

    FAST 2021 Paper?泛讀筆記 針對LSM樹同時優(yōu)化讀寫性能的問題,現(xiàn)有方法通過壓縮提升讀性能,但會導致讀放大或?qū)懛糯?。作者利用新存儲硬件的性能,隨機讀和順序讀性能相近,因此提出構(gòu)建邏輯排序視圖優(yōu)化范圍查詢,因為減少了真正的壓縮操作,同時減少了寫放大。 ATC 2

    2024年01月23日
    瀏覽(54)
  • InstructGPT 論文閱讀筆記

    InstructGPT 論文閱讀筆記

    目錄 簡介 數(shù)據(jù)集? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 詳細實現(xiàn) 實驗結(jié)果 參考資料 InstructGPT 模型是在論文《Training language models to follow instructions with human feedback》被提出的,OpenAI在2022年1月發(fā)布了這篇文章。 論文摘要翻譯 :把語言模型做得更大并不意味著讓它們更好的遵循

    2024年02月01日
    瀏覽(31)
  • GAN 論文閱讀筆記(6)

    GAN 論文閱讀筆記(6)

    原論文:MyStyle++: A Controllable Personalized Generative Prior 發(fā)表于:CVPR2023 注:本篇論文為 《MyStyle: A Personalized Generative Prior》 的改進,當遇到不理解的地方可以參照前一篇閱讀筆記 圖 1:MyStyle++ 在圖像合成,編輯和增強上的表現(xiàn) 1:MyStyle MyStyle 是一種 GAN 模型的改進模型。其打算

    2024年01月18日
    瀏覽(28)
  • PointMixer論文閱讀筆記

    MLP-mixer是最近很流行的一種網(wǎng)絡結(jié)構(gòu),比起Transformer和CNN的節(jié)構(gòu)笨重,MLP-mixer不僅節(jié)構(gòu)簡單,而且在圖像識別方面表現(xiàn)優(yōu)異。但是MLP-mixer在點云識別方面表現(xiàn)欠佳,PointMixer就是在保留了MLP-mixer優(yōu)點的同時,還可以很好的處理點云問題。PointMixer可以很好的處理intra-set, inter-set

    2024年02月19日
    瀏覽(16)
  • 3D卷積網(wǎng)絡論文閱讀筆記

    3D卷積網(wǎng)絡論文閱讀筆記

    數(shù)據(jù)集 BraTS 2020 數(shù)據(jù)增強方法 ? Flipping翻轉(zhuǎn): 以1/3的概率隨機沿著三個軸之一翻轉(zhuǎn) ? Rotation旋轉(zhuǎn): 從限定范圍(0到 15?或到30?或到60?或到90?)的均勻分布中隨機選擇角度旋轉(zhuǎn) ? Scale縮放: 通過從范圍為±10%或為±20%的均勻分布中隨機選擇的因子,對每個軸進行縮放 ? Br

    2023年04月10日
    瀏覽(25)
  • LIME論文閱讀筆記

    LIME論文閱讀筆記

    這是暗圖增強領(lǐng)域一篇經(jīng)典的傳統(tǒng)方法論文,發(fā)表在TIP這個頂刊 文章基于的是這樣一個公式: L = R ? T L=Rcdot T L = R ? T 其中, L L L 是暗圖, R R R 是反射分量, T T T 是illumination map,并且對于彩色圖像來說,三通道都共享相同的illumination map。我們可以使用各種方法估計 T

    2024年02月09日
    瀏覽(27)
  • 論文閱讀筆記(一)

    論文閱讀筆記(一)

    發(fā)表年份: 2016 主要貢獻: 提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 數(shù)據(jù)集 提出了多模態(tài)情緒分析未來研究的基線 提出了一種新的多模態(tài)融合方式 在這些在線意見視頻中研究情緒主要面臨的挑戰(zhàn)和解決方法: 挑戰(zhàn) 解決方法 這些視頻的不穩(wěn)定性和快節(jié)奏性。演講者經(jīng)

    2023年04月09日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包