国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ul id="ewsah"></ul>

<abbr id="ewsah"><dl id="ewsah"></dl></abbr>

跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排

2年前作者：若年封塵分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

摘要

圖像-文本檢索旨在彌合模態(tài)鴻溝，根據(jù)語(yǔ)義相似性檢索跨模態(tài)內(nèi)容。之前的工作通常側(cè)重于成對(duì)關(guān)系（即一個(gè)數(shù)據(jù)樣本是否與另一個(gè)樣本匹配），但忽略了高階鄰接關(guān)系（即多個(gè)數(shù)據(jù)樣本之間的匹配結(jié)構(gòu)）。重新排序是一種流行的后處理方法，它揭示了在單模態(tài)檢索任務(wù)中捕捉鄰接關(guān)系的優(yōu)越性。然而，將現(xiàn)有的重新排序算法直接擴(kuò)展到圖像文本檢索中效果并不理想。本文從泛化性、靈活性、稀疏性和不對(duì)稱性四個(gè)角度分析了原因，并提出了一種新穎的基于可學(xué)習(xí)支柱的重新排序范式。具體來(lái)說(shuō)，我們首先選擇排名靠前的模內(nèi)和模間鄰居作為支柱，然后利用數(shù)據(jù)樣本與支柱之間的鄰居關(guān)系重建數(shù)據(jù)樣本。這樣，每個(gè)樣本只需利用相似性就能映射到多模態(tài)支柱空間，從而確保泛化。之后，我們?cè)O(shè)計(jì)了一個(gè)鄰域感知圖推理模塊，以靈活利用這些關(guān)系，挖掘鄰域內(nèi)的稀疏正項(xiàng)。我們還提出了一種結(jié)構(gòu)對(duì)齊約束，以促進(jìn)跨模態(tài)協(xié)作并對(duì)齊非對(duì)稱模態(tài)。在各種基礎(chǔ)骨架之上，我們?cè)趦蓚€(gè)基準(zhǔn)數(shù)據(jù)集（即 Flickr30K 和 MS-COCO）上進(jìn)行了廣泛的實(shí)驗(yàn)，證明了我們提出的重新排序范式的有效性、優(yōu)越性、通用性和可移植性。

簡(jiǎn)介

雙流和單流框架都只考慮圖像和文本之間的配對(duì)匹配關(guān)系，如圖1（a）所示。它們完全忽略了圖1（b）中所示的多個(gè)圖像和文本之間的高階鄰居關(guān)系，因此檢索性能不佳。作為探索鄰居關(guān)系的后處理技術(shù)，重新排序在傳統(tǒng)的單模態(tài)檢索任務(wù)中顯示出顯著的有效性。
跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
圖 1：(a) 成對(duì)關(guān)系、(b) 鄰接關(guān)系和( c) 支柱空間結(jié)構(gòu)的圖示。與配對(duì)關(guān)系相比，高階鄰接關(guān)系是一種匹配結(jié)構(gòu)，包括查詢-鄰接（如 q? ??）和鄰接-鄰接（如 ?? ? ??）關(guān)系。在一個(gè)鄰域中，排名靠前的鄰居被選為支柱，以構(gòu)建支柱空間來(lái)表示數(shù)據(jù)樣本。數(shù)字表示由基本骨干計(jì)算出的相似度。

現(xiàn)有的重新排序方法可分為三大類：查詢擴(kuò)展（QE）[8，35]、擴(kuò)散[16]和基于鄰居的方法[48]。然而，由于以下挑戰(zhàn)，它們不適合跨模態(tài)ITR：泛化性、靈活性、稀疏性和不對(duì)稱性。

為了應(yīng)對(duì)上述挑戰(zhàn)，我們提出了一種可學(xué)習(xí)的基于支柱的重排序（LeaPRR）框架。

首先，為了很好地適應(yīng)單塔和雙塔框架，我們放棄了任何中間內(nèi)容特征，只將任何框架都能計(jì)算出的最終相似度作為重排模型的輸入。為了使實(shí)體（即查詢和條目）的表示更具信息性，我們將排名靠前的多模態(tài)相鄰實(shí)體定義為支柱，然后根據(jù)支柱與這些實(shí)體之間的相似性重建實(shí)體，如圖 1? 所示。這樣，每個(gè)實(shí)體都可以映射到支柱空間中。與傳統(tǒng)的獨(dú)立于模態(tài)的內(nèi)容空間不同，支柱空間是用多模態(tài)支柱來(lái)構(gòu)建的，以緩解不對(duì)稱問(wèn)題。
此外，針對(duì)靈活性和稀疏性的挑戰(zhàn)，我們提出了基于以給定查詢?yōu)橹行牡泥徲虻泥徲蚋兄獔D推理模塊，以靈活探索復(fù)雜的鄰域關(guān)系，包括查詢-鄰域和鄰域-鄰域關(guān)系。
為了進(jìn)一步處理正向項(xiàng)目的高稀疏性問(wèn)題，我們施加了局部和全局排序約束，以加強(qiáng)精煉支柱特征的判別能力，它可以自適應(yīng)地吸收有價(jià)值的信息，抵御來(lái)自鄰居的噪音。
最后，我們提出了一種結(jié)構(gòu)對(duì)齊約束，將上下文結(jié)構(gòu)從一種模式轉(zhuǎn)換到另一種模式，進(jìn)一步解決了不對(duì)稱問(wèn)題。

總之，我們的主要貢獻(xiàn)如下：

我們討論了 ITR 任務(wù)中現(xiàn)有重新排序方法的局限性，并提出了四個(gè)挑戰(zhàn)，即泛化、靈活性、稀疏性和不對(duì)稱性。
為了應(yīng)對(duì)這四個(gè)挑戰(zhàn)，我們重新定義了多模態(tài)領(lǐng)域的重新排序，并首次提出了一種可學(xué)習(xí)的基于支柱的重新排序范式，這種范式即插即用，適用于所有現(xiàn)有的 ITR 主干網(wǎng)。
在 Flickr30K [42] 和 MS-COCO [20] 兩個(gè)數(shù)據(jù)集上基于不同基礎(chǔ) ITR主干網(wǎng)的廣泛實(shí)驗(yàn)驗(yàn)證了我們模型的有效性和優(yōu)越性。

相關(guān)工作

大多數(shù)現(xiàn)有研究都側(cè)重于在聯(lián)合嵌入空間中表示數(shù)據(jù)樣本或深入挖掘細(xì)粒度的跨模態(tài)排列，但卻忽略了高效實(shí)用的后處理程序，即重新排序（re-ranking）。

方法

我們提出的 LeaPRR 的整體框架如圖 3 所示。下面，我們將首先介紹跨模態(tài) ITR 重排序的問(wèn)題定義，然后詳細(xì)闡述基于支柱的表示法和鄰居感知圖推理。最后，我們將介紹支柱空間中的學(xué)習(xí)策略。

問(wèn)題定義

給定一個(gè)查詢（圖像或文本）和另一種模式的數(shù)據(jù)庫(kù)，即 D = {??1, . , ???? }，我們首先通過(guò)一個(gè)基礎(chǔ) ITR 主干網(wǎng) ?? 計(jì)算查詢與 D 中每個(gè)項(xiàng) ???? 之間的初始相似度 ?? (stood,????) 。它可以通過(guò)單流或雙流網(wǎng)絡(luò)實(shí)現(xiàn)。前者[19]通常將??視為從兩個(gè)分支中提取的嵌入之間的余弦相似度，而后者則將??視為綜合的模態(tài)間交互模塊，如交叉注意[6, 39]。之后，我們可以通過(guò)降序排序相似度來(lái)獲得初始排名列表 R（q，D）。

ITR 重新排序的目標(biāo)是完善初始排序列表，使那些與查詢語(yǔ)義匹配度高的項(xiàng)目在完善后的排序列表中排名靠前，反之亦然，排序列表用 R? （q, D）表示。在這項(xiàng)工作中，我們將重點(diǎn)放在對(duì) R (q，D) 中排名靠前的項(xiàng)目進(jìn)行重新排序上，因?yàn)樵趯?shí)際場(chǎng)景中，用戶總是更關(guān)注排名靠前的檢索結(jié)果。

我們考慮了兩種檢索設(shè)置：圖像到文本 (I2T)，即 ? = ?? ，D := D?? ，和文本到圖像 (T2I)，即 ? := ?? ，D := D?? 。考慮到除檢索方向外的高度一致性，我們將在不失一般性的前提下闡述 I2T 設(shè)置下的方法。此外，我們將使用項(xiàng)目來(lái)表示給定圖像（或文本）查詢的所有檢索文本（或圖像），使用鄰域來(lái)表示排名靠前的項(xiàng)目，使用實(shí)體來(lái)表示任何查詢或項(xiàng)目。
跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排

圖 3：提出的 LeaPRR 模型示意圖（圖像到文本方向）。給定圖像查詢和數(shù)據(jù)庫(kù)后，通過(guò)基礎(chǔ)檢索器獲得初始排名列表。然后選擇排名靠前的多模態(tài)鄰域作為支柱，構(gòu)建多模態(tài)支柱空間。在這個(gè)空間中，對(duì)每個(gè)數(shù)據(jù)樣本進(jìn)行基于支柱的表示。然后，通過(guò)基于鄰居和基于學(xué)習(xí)的親緣關(guān)系構(gòu)建圖，并進(jìn)行鄰居感知圖推理。最后，該模型通過(guò)三個(gè)約束條件學(xué)習(xí)鄰接關(guān)系以重新排序。

基于支柱的表示法

對(duì)于雙流 I2T 框架，我們可以輕松訪問(wèn)每種模式的中間特征，并利用它們來(lái)豐富查詢或項(xiàng)目表示法，以便重新排序[13, 35]。然而，由于跨模態(tài)交互模塊的存在，單塔 I2T 框架無(wú)法做到這一點(diǎn)。有鑒于此，使用中間表征來(lái)優(yōu)化雙塔和單塔框架的排序結(jié)果是不現(xiàn)實(shí)的。因此，我們采用跨模態(tài)相似性對(duì)圖像-文本檢索進(jìn)行重新排序。然而，如何表示圖像或文本，并僅根據(jù)相似性對(duì)它們進(jìn)行比較，成為一個(gè)亟待解決的問(wèn)題。

俗話說(shuō) “物以類聚”。我們可以用固有的外貌特征來(lái)描述一個(gè)人，如身高、體重、膚色、臉型、發(fā)型等。同時(shí)，我們還可以通過(guò)他與其他人的關(guān)系來(lái)描繪這個(gè)人。例如，如果兩個(gè)人有共同的家庭成員，那么就有理由認(rèn)為他們?cè)谕饷采舷嗨?；如果有共同的偶像?或朋友，那么就有理由認(rèn)為他們?cè)谂d趣愛(ài)好上相似。這啟發(fā)我們，我們不僅可以用實(shí)體的內(nèi)部?jī)?nèi)容/屬性來(lái)表示實(shí)體，還可以用實(shí)體與其他實(shí)體之間的外部關(guān)系來(lái)表示實(shí)體。

雖然可以利用他人作為參照物來(lái)表示一個(gè)項(xiàng)目，但這并不意味著任何人都可以承擔(dān)責(zé)任。舉例來(lái)說(shuō)，一個(gè)人不熟悉的人就不能作為參照來(lái)歧視他。因此，項(xiàng)目與所選參照物之間的關(guān)系不應(yīng)非常稀疏。我們將在下文中詳細(xì)介紹如何選擇此類參照物，并利用它們作為表示項(xiàng)目的參照物。

多模態(tài)支柱選擇：給定 I2T 檢索的初始排序列表 R (??, D?? ) = {??1, …,???? }，我們選取前??（?? < ?? ）文本作為上述參考文獻(xiàn)。在我們的工作中，這些選定的參考文獻(xiàn)被定義為支柱。為簡(jiǎn)單起見(jiàn)，我們將 R (??, D?? ) 改為 R??→?? ，并使用 R??→?? 1:?? = {??1, …, ???? } 來(lái)表示查詢的模式間支柱 ?? 。為了進(jìn)一步提高表示能力，我們建議從模內(nèi)數(shù)據(jù)庫(kù) D?? 中挖掘模內(nèi)支柱。具體來(lái)說(shuō)，我們應(yīng)用圖像編碼器???? 提取特征，然后計(jì)算它們之間的成對(duì)相似度。之后，基于模內(nèi)排序列表 R (??, D?? ) = {??1, …, ???? }, 簡(jiǎn)稱 R??→?? ，我們收集一組查詢 ?? 的模內(nèi)支柱1，如 R??→?? 1:?? = {??1, …, ???? }。

基于支柱的編碼：在支柱的基礎(chǔ)上，我們對(duì)查詢圖像 ?? 及其頂層相鄰文本 {??1, … ，???? } 如下： v = [⊕????=1?? (??, ???? ), ⊕?? ??=1?? (??, ?? ?? )], t?? = [⊕????=1?? (????, ???? ), ⊕?? ??=1?? (?? ?? , ???? )], (1) 其中，⊕ 表示連接運(yùn)算符、 v ∈ R2?? 和 t??∈ R2?? 分別表示查詢?? 及其第?? 個(gè)相鄰???? 的基于支柱的表示，?? 可以是計(jì)算圖像-文本相似性的任何基礎(chǔ)骨干，?? 是模內(nèi)相似性計(jì)算模型。具體來(lái)說(shuō)，?? (??, ???? ) = cos(???? (?? ),???? (?? ?? )), ?? (????,???? ) = cos(???? (???? ),???? (???? )), 其中 ???? 和 ???? 分別是圖像編碼器和文本編碼器。

鄰居感知圖推理

重新排序的關(guān)鍵之一是對(duì)包括查詢及其鄰居在內(nèi)的鄰居中的高階鄰居關(guān)系進(jìn)行建模。在這個(gè)問(wèn)題上，我們定制了一個(gè)基于圖的鄰居傳播，以自適應(yīng)地捕獲查詢鄰居和鄰居-鄰居關(guān)系。在完成支柱編碼之后，我們能夠在支柱空間中表示查詢及其鄰居。在這個(gè)空間中，我們將每個(gè)項(xiàng)目（即查詢或鄰居）視為一個(gè)節(jié)點(diǎn)，然后根據(jù)它們的親和性得分將它們連接起來(lái)。

從支柱空間學(xué)習(xí)

在圖像和文本之間的成對(duì)監(jiān)督下，我們的模型在以下三個(gè)約束下進(jìn)行了優(yōu)化。
全球?qū)Ρ榷葥p失。我們采用對(duì)比度損失[14]來(lái)強(qiáng)制查詢盡可能接近正面，遠(yuǎn)離負(fù)面。
局部Triplet損失。與本質(zhì)上迫使所有正對(duì)相似的對(duì)比損失不同，基于鉸鏈的三元組損失[37]關(guān)注局部相對(duì)接近性，并在一定程度上允許正之間的差異，使其不那么貪婪。在本文中，考慮頂部的負(fù)樣本-??鄰居已經(jīng)很難了，我們沒(méi)有進(jìn)行最難的負(fù)向挖掘，而是轉(zhuǎn)向最難的正向挖掘，這使得它與對(duì)比損失互補(bǔ)。
相互模態(tài)對(duì)齊。到目前為止，我們已經(jīng)說(shuō)明了I2T子模型的機(jī)制。類似地，我們可以通過(guò)將查詢和數(shù)據(jù)庫(kù)分別分配為文本來(lái)導(dǎo)出T2I子模型??和D??.要集成這兩個(gè)子模型，一種簡(jiǎn)單的方法是直接平均兩個(gè)相似之處，就像大多數(shù)先前的基本骨架[17，21，34]所做的那樣。然而，通過(guò)這種方式，兩個(gè)子模型是獨(dú)立訓(xùn)練的，不能相互促進(jìn)。受相互學(xué)習(xí)[40，45]的啟發(fā)，我們?cè)O(shè)計(jì)了一種相互模態(tài)對(duì)齊方案，以激勵(lì)兩個(gè)子模型一起教學(xué)和促進(jìn)對(duì)方。以I2T為例，我們首先對(duì)查詢進(jìn)行跨模態(tài)正采樣??和每個(gè)鄰居????inD??, 獲得??′=??(??)和??′??=??(????), 哪里??（·）是采樣函數(shù)。具體地說(shuō)，對(duì)于給定的實(shí)體，我們首先通過(guò)成對(duì)的地面實(shí)況信息在其他模態(tài)中找到它的正匹配，然后在存在多個(gè)正匹配的情況下對(duì)一個(gè)實(shí)體進(jìn)行一致采樣。在ward之后，我們分別計(jì)算了以為中心的兩個(gè)相似性分布??和??′。

實(shí)驗(yàn)

跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
表 1：基于 VSE∞ 和 DIME? 的 Flickr30K 和 MS-COCO (5K) 數(shù)據(jù)集上，提出的 LeaPRR 與幾種基準(zhǔn)的性能比較。每個(gè)基準(zhǔn)的最佳性能以粗體標(biāo)出，次佳結(jié)果以下劃線標(biāo)出。提出方法的結(jié)果用灰色背景標(biāo)出。

實(shí)施細(xì)節(jié)

在我們的工作中，使用64個(gè)模態(tài)內(nèi)柱和64個(gè)模態(tài)間柱來(lái)構(gòu)建128維的柱空間，即。，??=64.I2T和T2I設(shè)置中的前32名和前8名項(xiàng)目分別被考慮重新排序。換句話說(shuō)，??=32用于I2T和??=8用于T2I。此外，通過(guò)FC層映射的中間嵌入空間的維度被設(shè)置為768。（4）設(shè)置為0.8。對(duì)于鄰居傳播，GCN層的數(shù)量設(shè)置為2。保證金??局部三重態(tài)損耗與溫度因子??分別設(shè)置為0.2和1.0。此外，我們使用了動(dòng)量為0.9、批大小為512的SGD優(yōu)化器。我們的模型被訓(xùn)練了30個(gè)時(shí)期，學(xué)習(xí)率為0.01。選擇驗(yàn)證集中rSum最高的檢查點(diǎn)進(jìn)行測(cè)試。在本文中，我們直接應(yīng)用開(kāi)源社區(qū)2中發(fā)布的預(yù)先訓(xùn)練的雙塔模型CAMERA[33]的視覺(jué)和文本分支2來(lái)計(jì)算模態(tài)內(nèi)相似性和收集的模態(tài)內(nèi)支柱，即R??→??1:??和R??→??1:??。
跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
表4：Flickr30K和MS-COCO（5K）數(shù)據(jù)集上基于五個(gè)基本ITR架構(gòu)偽造評(píng)估的定量結(jié)果。與基礎(chǔ)骨干相比，提出的LeadRR實(shí)現(xiàn)的性能改進(jìn)以綠色標(biāo)記。

為了驗(yàn)證LeadRR是否能在不同的基礎(chǔ)ITR架構(gòu)中表現(xiàn)良好，我們將其插入五個(gè)具有代表性的架構(gòu)：兩個(gè)單塔（SCAN和DIME）和三個(gè)雙塔（VSRN*、CAMERA*和VSE∞）架構(gòu)，并將其與KRNN[38]進(jìn)行比較。Flickr30K和MS-COCO（5K）的結(jié)果如表4所示。在兩個(gè)數(shù)據(jù)集上的卓越性能，特別是R@1性能，驗(yàn)證了我們的方法強(qiáng)大的泛化能力，以及與當(dāng)前最先進(jìn)的KRNN相比的優(yōu)勢(shì)，而不考慮基礎(chǔ)主干。

結(jié)論和未來(lái)工作

在本文中，我們提出了在重新排序范式中對(duì)圖像文本檢索的高階鄰居關(guān)系進(jìn)行建模。為此，我們首先深入研究了先前重新排序方法在多模態(tài)背景下的局限性，并提出了圖像文本檢索重新排序的四個(gè)挑戰(zhàn)。為了解決這四個(gè)問(wèn)題，我們重新制定了多模式重新排序，構(gòu)建了一個(gè)具有頂級(jí)鄰居的新支柱空間，并提出了一種基于學(xué)習(xí)的框架，該框架可以適應(yīng)單塔和雙塔框架，并靈活地探索實(shí)體之間復(fù)雜的鄰居關(guān)系。綜合實(shí)驗(yàn)證明了該方法的有效性、優(yōu)越性、推廣性和可移植性。

未來(lái)，為了進(jìn)一步提高重新排序性能，我們計(jì)劃引入豐富的多模式外部知識(shí)來(lái)建模高階鄰居關(guān)系。此外，在所提出的重新排序范式的啟發(fā)下，我們計(jì)劃從更廣泛的角度探索不同下游檢索任務(wù)之間的可轉(zhuǎn)移性。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-795406.html

到了這里，關(guān)于跨模態(tài)檢索論文閱讀：Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

論文閱讀-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)
????????人為設(shè)計(jì)的圖增強(qiáng)，可能會(huì)破壞原始圖的拓?fù)浣Y(jié)構(gòu)，同時(shí)相鄰節(jié)點(diǎn)被視為負(fù)節(jié)點(diǎn)，因此被推離錨點(diǎn)很遠(yuǎn)。然而，這與網(wǎng)絡(luò)的同質(zhì)性假設(shè)是矛盾的，即連接的節(jié)點(diǎn)通常屬于同一類，并且應(yīng)該彼此接近。本文提出了一種端到端的自動(dòng)GCL方法，稱為NCLA，將鄰居對(duì)比學(xué)習(xí)
2024年02月14日
瀏覽(24)
Empowering Low-Light Image Enhancer through Customized Learnable Priors 論文閱讀筆記
中科大、西安交大、南開(kāi)大學(xué)發(fā)表在ICCV2023的論文，作者里有李重儀老師和中科大的Jie Huang（ECCV2022的FEC CVPR2022的ENC和CVPR2023的ERL的一作）喔，看來(lái)可能是和Jie Huang同一個(gè)課題組的，而且同樣代碼是開(kāi)源的，我很喜歡。文章利用了MAE的encoder來(lái)做一些事情，提出了一個(gè)叫customi
2024年02月02日
瀏覽(26)
MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀
題目：MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者：Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 時(shí)間：2022 來(lái)源： IEEE/SICE International Symposium on System Integration (SII) 深度學(xué)習(xí)的最新進(jìn)展使移動(dòng)機(jī)器人能夠以自我監(jiān)督的方式聯(lián)合學(xué)習(xí)自我運(yùn)動(dòng)和深度圖。然而，現(xiàn)有的方
2024年02月09日
瀏覽(21)
多模態(tài)論文閱讀之BLIP
BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度：clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have
2024年02月06日
瀏覽(26)
多模態(tài)論文閱讀之VLMo
VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts CLIP和ALIGN都采用 dual-encoder 的方式分別編碼圖像和文本，模態(tài)之間的交互采用cosine similarity ，這種方法對(duì)retrieval tasks(檢索任務(wù))及其有效；但是如此shallow intersection between images and text is not enough to handle complex VL classficatio
2024年02月06日
瀏覽(22)
論文閱讀-NOLANet多模態(tài)偽造檢測(cè)
一、論文信息：題目： Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning（多模態(tài)偽造檢測(cè)——視覺(jué)+頻譜+語(yǔ)音）作者團(tuán)隊(duì)：會(huì)議：AIPR 2020 二、背景與創(chuàng)新背景：合成視頻威脅到數(shù)字媒體的信任與隱私，許多deepfake檢測(cè)方法使用單幀視頻，
2023年04月14日
瀏覽(70)
多模態(tài)大模型-CogVLm 論文閱讀筆記
論文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 時(shí)間 : 2023-11 機(jī)構(gòu) : zhipuai,tsinghua : visual language model 效果:（2023-11） :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,
2024年02月03日
瀏覽(20)
論文閱讀：multimodal remote sensing survey 遙感多模態(tài)綜述
參考： From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords：multimodal remote sensing 本文強(qiáng)調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異，然后利用這些差異來(lái)指導(dǎo)我們對(duì)級(jí)聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后，對(duì)未來(lái)可能的研究方向進(jìn)行了探討
2024年02月02日
瀏覽(26)
論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述
非核心原文鏈接：基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國(guó)知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹多模態(tài)情感分析的概念、背景、意義?？偨Y(jié)了多模態(tài)融合技術(shù)和交互技術(shù) ，討論多模態(tài)情感分析未來(lái)發(fā)展。目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)
2024年02月04日
瀏覽(39)
[論文閱讀]MVX-Net——基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet
MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet 論文網(wǎng)址：MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點(diǎn)云特征結(jié)合,從而提高3D目標(biāo)檢測(cè)的性能。論文的主要內(nèi)容和貢獻(xiàn)總結(jié)如下: 提出了兩種簡(jiǎn)單有效的多模
2024年02月07日
瀏覽(137)