国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排

這篇具有很好參考價(jià)值的文章主要介紹了跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

摘要

圖像-文本檢索旨在彌合模態(tài)鴻溝,根據(jù)語(yǔ)義相似性檢索跨模態(tài)內(nèi)容。之前的工作通常側(cè)重于成對(duì)關(guān)系(即一個(gè)數(shù)據(jù)樣本是否與另一個(gè)樣本匹配),但忽略了高階鄰接關(guān)系(即多個(gè)數(shù)據(jù)樣本之間的匹配結(jié)構(gòu))。重新排序是一種流行的后處理方法,它揭示了在單模態(tài)檢索任務(wù)中捕捉鄰接關(guān)系的優(yōu)越性。然而,將現(xiàn)有的重新排序算法直接擴(kuò)展到圖像文本檢索中效果并不理想。本文從泛化性、靈活性、稀疏性和不對(duì)稱性四個(gè)角度分析了原因,并提出了一種新穎的基于可學(xué)習(xí)支柱的重新排序范式。具體來(lái)說(shuō),我們首先選擇排名靠前的模內(nèi)和模間鄰居作為支柱,然后利用數(shù)據(jù)樣本與支柱之間的鄰居關(guān)系重建數(shù)據(jù)樣本。這樣,每個(gè)樣本只需利用相似性就能映射到多模態(tài)支柱空間,從而確保泛化。之后,我們?cè)O(shè)計(jì)了一個(gè)鄰域感知圖推理模塊,以靈活利用這些關(guān)系,挖掘鄰域內(nèi)的稀疏正項(xiàng)。我們還提出了一種結(jié)構(gòu)對(duì)齊約束,以促進(jìn)跨模態(tài)協(xié)作并對(duì)齊非對(duì)稱模態(tài)。在各種基礎(chǔ)骨架之上,我們?cè)趦蓚€(gè)基準(zhǔn)數(shù)據(jù)集(即 Flickr30K 和 MS-COCO)上進(jìn)行了廣泛的實(shí)驗(yàn),證明了我們提出的重新排序范式的有效性、優(yōu)越性、通用性和可移植性。

簡(jiǎn)介

雙流和單流框架都只考慮圖像和文本之間的配對(duì)匹配關(guān)系,如圖1(a)所示。它們完全忽略了圖1(b)中所示的多個(gè)圖像和文本之間的高階鄰居關(guān)系,因此檢索性能不佳。作為探索鄰居關(guān)系的后處理技術(shù),重新排序在傳統(tǒng)的單模態(tài)檢索任務(wù)中顯示出顯著的有效性。
跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
圖 1:(a) 成對(duì)關(guān)系、(b) 鄰接關(guān)系和( c) 支柱空間結(jié)構(gòu)的圖示。與配對(duì)關(guān)系相比,高階鄰接關(guān)系是一種匹配結(jié)構(gòu),包括查詢-鄰接(如 q? ??)和鄰接-鄰接(如 ?? ? ??)關(guān)系。在一個(gè)鄰域中,排名靠前的鄰居被選為支柱,以構(gòu)建支柱空間來(lái)表示數(shù)據(jù)樣本。數(shù)字表示由基本骨干計(jì)算出的相似度。

現(xiàn)有的重新排序方法可分為三大類:查詢擴(kuò)展(QE)[8,35]、擴(kuò)散[16]和基于鄰居的方法[48]。然而,由于以下挑戰(zhàn),它們不適合跨模態(tài)ITR:泛化性、靈活性、稀疏性和不對(duì)稱性。

為了應(yīng)對(duì)上述挑戰(zhàn),我們提出了一種可學(xué)習(xí)的基于支柱的重排序(LeaPRR)框架。

  1. 首先,為了很好地適應(yīng)單塔和雙塔框架,我們放棄了任何中間內(nèi)容特征,只將任何框架都能計(jì)算出的最終相似度作為重排模型的輸入。為了使實(shí)體(即查詢和條目)的表示更具信息性,我們將排名靠前的多模態(tài)相鄰實(shí)體定義為支柱,然后根據(jù)支柱與這些實(shí)體之間的相似性重建實(shí)體,如圖 1? 所示。這樣,每個(gè)實(shí)體都可以映射到支柱空間中。與傳統(tǒng)的獨(dú)立于模態(tài)的內(nèi)容空間不同,支柱空間是用多模態(tài)支柱來(lái)構(gòu)建的,以緩解不對(duì)稱問(wèn)題。

  2. 此外,針對(duì)靈活性和稀疏性的挑戰(zhàn),我們提出了基于以給定查詢?yōu)橹行牡泥徲虻泥徲蚋兄獔D推理模塊,以靈活探索復(fù)雜的鄰域關(guān)系,包括查詢-鄰域和鄰域-鄰域關(guān)系。

  3. 為了進(jìn)一步處理正向項(xiàng)目的高稀疏性問(wèn)題,我們施加了局部和全局排序約束,以加強(qiáng)精煉支柱特征的判別能力,它可以自適應(yīng)地吸收有價(jià)值的信息,抵御來(lái)自鄰居的噪音。

  4. 最后,我們提出了一種結(jié)構(gòu)對(duì)齊約束,將上下文結(jié)構(gòu)從一種模式轉(zhuǎn)換到另一種模式,進(jìn)一步解決了不對(duì)稱問(wèn)題。

總之,我們的主要貢獻(xiàn)如下:

  • 我們討論了 ITR 任務(wù)中現(xiàn)有重新排序方法的局限性,并提出了四個(gè)挑戰(zhàn),即泛化、靈活性、稀疏性和不對(duì)稱性。
  • 為了應(yīng)對(duì)這四個(gè)挑戰(zhàn),我們重新定義了多模態(tài)領(lǐng)域的重新排序,并首次提出了一種可學(xué)習(xí)的基于支柱的重新排序范式,這種范式即插即用,適用于所有現(xiàn)有的 ITR 主干網(wǎng)。
  • 在 Flickr30K [42] 和 MS-COCO [20] 兩個(gè)數(shù)據(jù)集上基于不同基礎(chǔ) ITR主干網(wǎng)的廣泛實(shí)驗(yàn)驗(yàn)證了我們模型的有效性和優(yōu)越性。

相關(guān)工作

大多數(shù)現(xiàn)有研究都側(cè)重于在聯(lián)合嵌入空間中表示數(shù)據(jù)樣本或深入挖掘細(xì)粒度的跨模態(tài)排列,但卻忽略了高效實(shí)用的后處理程序,即重新排序(re-ranking)。

方法

我們提出的 LeaPRR 的整體框架如圖 3 所示。下面,我們將首先介紹跨模態(tài) ITR 重排序的問(wèn)題定義,然后詳細(xì)闡述基于支柱的表示法和鄰居感知圖推理。最后,我們將介紹支柱空間中的學(xué)習(xí)策略。

問(wèn)題定義

給定一個(gè)查詢(圖像或文本)和另一種模式的數(shù)據(jù)庫(kù),即 D = {??1, . , ???? },我們首先通過(guò)一個(gè)基礎(chǔ) ITR 主干網(wǎng) ?? 計(jì)算查詢與 D 中每個(gè)項(xiàng) ???? 之間的初始相似度 ?? (stood,????) 。它可以通過(guò)單流或雙流網(wǎng)絡(luò)實(shí)現(xiàn)。前者[19]通常將??視為從兩個(gè)分支中提取的嵌入之間的余弦相似度,而后者則將??視為綜合的模態(tài)間交互模塊,如交叉注意[6, 39]。之后,我們可以通過(guò)降序排序相似度來(lái)獲得初始排名列表 R(q,D)。

ITR 重新排序的目標(biāo)是完善初始排序列表,使那些與查詢語(yǔ)義匹配度高的項(xiàng)目在完善后的排序列表中排名靠前,反之亦然,排序列表用 R? (q, D)表示。在這項(xiàng)工作中,我們將重點(diǎn)放在對(duì) R (q,D) 中排名靠前的項(xiàng)目進(jìn)行重新排序上,因?yàn)樵趯?shí)際場(chǎng)景中,用戶總是更關(guān)注排名靠前的檢索結(jié)果。

我們考慮了兩種檢索設(shè)置: 圖像到文本 (I2T),即 ? = ?? ,D := D?? ,和文本到圖像 (T2I),即 ? := ?? ,D := D?? 。考慮到除檢索方向外的高度一致性,我們將在不失一般性的前提下闡述 I2T 設(shè)置下的方法。此外,我們將使用項(xiàng)目來(lái)表示給定圖像(或文本)查詢的所有檢索文本(或圖像),使用鄰域來(lái)表示排名靠前的項(xiàng)目,使用實(shí)體來(lái)表示任何查詢或項(xiàng)目。
跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排

圖 3:提出的 LeaPRR 模型示意圖(圖像到文本方向)。給定圖像查詢和數(shù)據(jù)庫(kù)后,通過(guò)基礎(chǔ)檢索器獲得初始排名列表。然后選擇排名靠前的多模態(tài)鄰域作為支柱,構(gòu)建多模態(tài)支柱空間。在這個(gè)空間中,對(duì)每個(gè)數(shù)據(jù)樣本進(jìn)行基于支柱的表示。然后,通過(guò)基于鄰居和基于學(xué)習(xí)的親緣關(guān)系構(gòu)建圖,并進(jìn)行鄰居感知圖推理。最后,該模型通過(guò)三個(gè)約束條件學(xué)習(xí)鄰接關(guān)系以重新排序。

基于支柱的表示法

對(duì)于雙流 I2T 框架,我們可以輕松訪問(wèn)每種模式的中間特征,并利用它們來(lái)豐富查詢或項(xiàng)目表示法,以便重新排序[13, 35]。然而,由于跨模態(tài)交互模塊的存在,單塔 I2T 框架無(wú)法做到這一點(diǎn)。有鑒于此,使用中間表征來(lái)優(yōu)化雙塔和單塔框架的排序結(jié)果是不現(xiàn)實(shí)的。因此,我們采用跨模態(tài)相似性對(duì)圖像-文本檢索進(jìn)行重新排序。然而,如何表示圖像或文本,并僅根據(jù)相似性對(duì)它們進(jìn)行比較,成為一個(gè)亟待解決的問(wèn)題。

俗話說(shuō) “物以類聚”。我們可以用固有的外貌特征來(lái)描述一個(gè)人,如身高、體重、膚色、臉型、發(fā)型等。同時(shí),我們還可以通過(guò)他與其他人的關(guān)系來(lái)描繪這個(gè)人。例如,如果兩個(gè)人有共同的家庭成員,那么就有理由認(rèn)為他們?cè)谕饷采舷嗨?;如果有共同的偶像?或朋友,那么就有理由認(rèn)為他們?cè)谂d趣愛(ài)好上相似。這啟發(fā)我們,我們不僅可以用實(shí)體的內(nèi)部?jī)?nèi)容/屬性來(lái)表示實(shí)體,還可以用實(shí)體與其他實(shí)體之間的外部關(guān)系來(lái)表示實(shí)體。

雖然可以利用他人作為參照物來(lái)表示一個(gè)項(xiàng)目,但這并不意味著任何人都可以承擔(dān)責(zé)任。舉例來(lái)說(shuō),一個(gè)人不熟悉的人就不能作為參照來(lái)歧視他。因此,項(xiàng)目與所選參照物之間的關(guān)系不應(yīng)非常稀疏。我們將在下文中詳細(xì)介紹如何選擇此類參照物,并利用它們作為表示項(xiàng)目的參照物。

多模態(tài)支柱選擇:給定 I2T 檢索的初始排序列表 R (??, D?? ) = {??1, …,???? },我們選取前??(?? < ?? )文本作為上述參考文獻(xiàn)。在我們的工作中,這些選定的參考文獻(xiàn)被定義為支柱。為簡(jiǎn)單起見(jiàn),我們將 R (??, D?? ) 改為 R??→?? ,并使用 R??→?? 1:?? = {??1, …, ???? } 來(lái)表示查詢的模式間支柱 ?? 。為了進(jìn)一步提高表示能力,我們建議從模內(nèi)數(shù)據(jù)庫(kù) D?? 中挖掘模內(nèi)支柱。具體來(lái)說(shuō),我們應(yīng)用圖像編碼器???? 提取特征,然后計(jì)算它們之間的成對(duì)相似度。之后,基于模內(nèi)排序列表 R (??, D?? ) = {??1, …, ???? }, 簡(jiǎn)稱 R??→?? ,我們收集一組查詢 ?? 的模內(nèi)支柱1,如 R??→?? 1:?? = {??1, …, ???? }。

基于支柱的編碼:在支柱的基礎(chǔ)上,我們對(duì)查詢圖像 ?? 及其頂層相鄰文本 {??1, … ,???? } 如下: v = [⊕????=1?? (??, ???? ), ⊕?? ??=1?? (??, ?? ?? )], t?? = [⊕????=1?? (????, ???? ), ⊕?? ??=1?? (?? ?? , ???? )], (1) 其中,⊕ 表示連接運(yùn)算符、 v ∈ R2?? 和 t??∈ R2?? 分別表示查詢?? 及其第?? 個(gè)相鄰???? 的基于支柱的表示,?? 可以是計(jì)算圖像-文本相似性的任何基礎(chǔ)骨干,?? 是模內(nèi)相似性計(jì)算模型。具體來(lái)說(shuō),?? (??, ???? ) = cos(???? (?? ),???? (?? ?? )), ?? (????,???? ) = cos(???? (???? ),???? (???? )), 其中 ???? 和 ???? 分別是圖像編碼器和文本編碼器。

鄰居感知圖推理

重新排序的關(guān)鍵之一是對(duì)包括查詢及其鄰居在內(nèi)的鄰居中的高階鄰居關(guān)系進(jìn)行建模。在這個(gè)問(wèn)題上,我們定制了一個(gè)基于圖的鄰居傳播,以自適應(yīng)地捕獲查詢鄰居和鄰居-鄰居關(guān)系。在完成支柱編碼之后,我們能夠在支柱空間中表示查詢及其鄰居。在這個(gè)空間中,我們將每個(gè)項(xiàng)目(即查詢或鄰居)視為一個(gè)節(jié)點(diǎn),然后根據(jù)它們的親和性得分將它們連接起來(lái)。

從支柱空間學(xué)習(xí)

在圖像和文本之間的成對(duì)監(jiān)督下,我們的模型在以下三個(gè)約束下進(jìn)行了優(yōu)化。
全球?qū)Ρ榷葥p失。我們采用對(duì)比度損失[14]來(lái)強(qiáng)制查詢盡可能接近正面,遠(yuǎn)離負(fù)面。
局部Triplet損失。與本質(zhì)上迫使所有正對(duì)相似的對(duì)比損失不同,基于鉸鏈的三元組損失[37]關(guān)注局部相對(duì)接近性,并在一定程度上允許正之間的差異,使其不那么貪婪。在本文中,考慮頂部的負(fù)樣本-??鄰居已經(jīng)很難了,我們沒(méi)有進(jìn)行最難的負(fù)向挖掘,而是轉(zhuǎn)向最難的正向挖掘,這使得它與對(duì)比損失互補(bǔ)。
相互模態(tài)對(duì)齊。到目前為止,我們已經(jīng)說(shuō)明了I2T子模型的機(jī)制。類似地,我們可以通過(guò)將查詢和數(shù)據(jù)庫(kù)分別分配為文本來(lái)導(dǎo)出T2I子模型??和D??.要集成這兩個(gè)子模型,一種簡(jiǎn)單的方法是直接平均兩個(gè)相似之處,就像大多數(shù)先前的基本骨架[17,21,34]所做的那樣。然而,通過(guò)這種方式,兩個(gè)子模型是獨(dú)立訓(xùn)練的,不能相互促進(jìn)。受相互學(xué)習(xí)[40,45]的啟發(fā),我們?cè)O(shè)計(jì)了一種相互模態(tài)對(duì)齊方案,以激勵(lì)兩個(gè)子模型一起教學(xué)和促進(jìn)對(duì)方。以I2T為例,我們首先對(duì)查詢進(jìn)行跨模態(tài)正采樣??和每個(gè)鄰居????inD??, 獲得??′=??(??)和??′??=??(????), 哪里??(·)是采樣函數(shù)。具體地說(shuō),對(duì)于給定的實(shí)體,我們首先通過(guò)成對(duì)的地面實(shí)況信息在其他模態(tài)中找到它的正匹配,然后在存在多個(gè)正匹配的情況下對(duì)一個(gè)實(shí)體進(jìn)行一致采樣。在ward之后,我們分別計(jì)算了以為中心的兩個(gè)相似性分布??和??′。

實(shí)驗(yàn)

跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
表 1:基于 VSE∞ 和 DIME? 的 Flickr30K 和 MS-COCO (5K) 數(shù)據(jù)集上,提出的 LeaPRR 與幾種基準(zhǔn)的性能比較。每個(gè)基準(zhǔn)的最佳性能以粗體標(biāo)出,次佳結(jié)果以下劃線標(biāo)出。提出方法的結(jié)果用灰色背景標(biāo)出。

實(shí)施細(xì)節(jié)

在我們的工作中,使用64個(gè)模態(tài)內(nèi)柱和64個(gè)模態(tài)間柱來(lái)構(gòu)建128維的柱空間,即。,??=64.I2T和T2I設(shè)置中的前32名和前8名項(xiàng)目分別被考慮重新排序。換句話說(shuō),??=32用于I2T和??=8用于T2I。此外,通過(guò)FC層映射的中間嵌入空間的維度被設(shè)置為768。(4) 設(shè)置為0.8。對(duì)于鄰居傳播,GCN層的數(shù)量設(shè)置為2。保證金??局部三重態(tài)損耗與溫度因子??分別設(shè)置為0.2和1.0。此外,我們使用了動(dòng)量為0.9、批大小為512的SGD優(yōu)化器。我們的模型被訓(xùn)練了30個(gè)時(shí)期,學(xué)習(xí)率為0.01。選擇驗(yàn)證集中rSum最高的檢查點(diǎn)進(jìn)行測(cè)試。在本文中,我們直接應(yīng)用開(kāi)源社區(qū)2中發(fā)布的預(yù)先訓(xùn)練的雙塔模型CAMERA[33]的視覺(jué)和文本分支2來(lái)計(jì)算模態(tài)內(nèi)相似性和收集的模態(tài)內(nèi)支柱,即R??→??1:??和R??→??1:??。
跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排,深度學(xué)習(xí),# 跨模態(tài)檢索,論文閱讀,跨模態(tài)檢索,深度學(xué)習(xí),LeadRR,重排
表4:Flickr30K和MS-COCO(5K)數(shù)據(jù)集上基于五個(gè)基本ITR架構(gòu)偽造評(píng)估的定量結(jié)果。與基礎(chǔ)骨干相比,提出的LeadRR實(shí)現(xiàn)的性能改進(jìn)以綠色標(biāo)記。

為了驗(yàn)證LeadRR是否能在不同的基礎(chǔ)ITR架構(gòu)中表現(xiàn)良好,我們將其插入五個(gè)具有代表性的架構(gòu):兩個(gè)單塔(SCAN和DIME)和三個(gè)雙塔(VSRN*、CAMERA*和VSE∞)架構(gòu),并將其與KRNN[38]進(jìn)行比較。Flickr30K和MS-COCO(5K)的結(jié)果如表4所示。在兩個(gè)數(shù)據(jù)集上的卓越性能,特別是R@1性能,驗(yàn)證了我們的方法強(qiáng)大的泛化能力,以及與當(dāng)前最先進(jìn)的KRNN相比的優(yōu)勢(shì),而不考慮基礎(chǔ)主干。

結(jié)論和未來(lái)工作

在本文中,我們提出了在重新排序范式中對(duì)圖像文本檢索的高階鄰居關(guān)系進(jìn)行建模。為此,我們首先深入研究了先前重新排序方法在多模態(tài)背景下的局限性,并提出了圖像文本檢索重新排序的四個(gè)挑戰(zhàn)。為了解決這四個(gè)問(wèn)題,我們重新制定了多模式重新排序,構(gòu)建了一個(gè)具有頂級(jí)鄰居的新支柱空間,并提出了一種基于學(xué)習(xí)的框架,該框架可以適應(yīng)單塔和雙塔框架,并靈活地探索實(shí)體之間復(fù)雜的鄰居關(guān)系。綜合實(shí)驗(yàn)證明了該方法的有效性、優(yōu)越性、推廣性和可移植性。

未來(lái),為了進(jìn)一步提高重新排序性能,我們計(jì)劃引入豐富的多模式外部知識(shí)來(lái)建模高階鄰居關(guān)系。此外,在所提出的重新排序范式的啟發(fā)下,我們計(jì)劃從更廣泛的角度探索不同下游檢索任務(wù)之間的可轉(zhuǎn)移性。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-795406.html

到了這里,關(guān)于跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)

    ????????人為設(shè)計(jì)的圖增強(qiáng),可能會(huì)破壞原始圖的拓?fù)浣Y(jié)構(gòu),同時(shí)相鄰節(jié)點(diǎn)被視為負(fù)節(jié)點(diǎn),因此被推離錨點(diǎn)很遠(yuǎn)。然而,這與網(wǎng)絡(luò)的同質(zhì)性假設(shè)是矛盾的,即連接的節(jié)點(diǎn)通常屬于同一類,并且應(yīng)該彼此接近。本文提出了一種端到端的自動(dòng)GCL方法,稱為NCLA,將 鄰居對(duì)比學(xué)習(xí)

    2024年02月14日
    瀏覽(24)
  • Empowering Low-Light Image Enhancer through Customized Learnable Priors 論文閱讀筆記

    Empowering Low-Light Image Enhancer through Customized Learnable Priors 論文閱讀筆記

    中科大、西安交大、南開(kāi)大學(xué)發(fā)表在ICCV2023的論文,作者里有李重儀老師和中科大的Jie Huang(ECCV2022的FEC CVPR2022的ENC和CVPR2023的ERL的一作)喔,看來(lái)可能是和Jie Huang同一個(gè)課題組的,而且同樣代碼是開(kāi)源的,我很喜歡。 文章利用了MAE的encoder來(lái)做一些事情,提出了一個(gè)叫customi

    2024年02月02日
    瀏覽(26)
  • MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀

    MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀

    題目 :MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者 :Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 時(shí)間 :2022 來(lái)源 : IEEE/SICE International Symposium on System Integration (SII) 深度學(xué)習(xí)的最新進(jìn)展使移動(dòng)機(jī)器人能夠以自我監(jiān)督的方式聯(lián)合學(xué)習(xí)自我運(yùn)動(dòng)和深度圖。 然而,現(xiàn)有的方

    2024年02月09日
    瀏覽(21)
  • 多模態(tài)論文閱讀之BLIP

    多模態(tài)論文閱讀之BLIP

    BLIP: Bootstrapping Language-Image Pre-training for Uni?ed Vision-Language Understanding and Generation 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have

    2024年02月06日
    瀏覽(26)
  • 多模態(tài)論文閱讀之VLMo

    多模態(tài)論文閱讀之VLMo

    VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts CLIP和ALIGN都采用 dual-encoder 的方式分別編碼圖像和文本,模態(tài)之間的交互采用cosine similarity ,這種方法對(duì)retrieval tasks(檢索任務(wù))及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classficatio

    2024年02月06日
    瀏覽(22)
  • 論文閱讀-NOLANet多模態(tài)偽造檢測(cè)

    論文閱讀-NOLANet多模態(tài)偽造檢測(cè)

    一、論文信息: 題目: Deepfake Video Detection Based on Spatial,Spectral, and Temporal Inconsistencies UsingMultimodal Deep Learning(多模態(tài)偽造檢測(cè)——視覺(jué)+頻譜+語(yǔ)音) 作者團(tuán)隊(duì): 會(huì)議:AIPR 2020 二、背景與創(chuàng)新 背景: 合成視頻威脅到數(shù)字媒體的信任與隱私,許多deepfake檢測(cè)方法使用單幀視頻,

    2023年04月14日
    瀏覽(70)
  • 多模態(tài)大模型-CogVLm 論文閱讀筆記

    多模態(tài)大模型-CogVLm 論文閱讀筆記

    論文地址 :https://arxiv.org/pdf/2311.03079.pdf code地址 : https://github.com/THUDM/CogVLM 時(shí)間 : 2023-11 機(jī)構(gòu) : zhipuai,tsinghua : visual language model 效果:(2023-11) :CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W,

    2024年02月03日
    瀏覽(20)
  • 論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    論文閱讀:multimodal remote sensing survey 遙感多模態(tài)綜述

    參考: From Single- to Multi-modal Remote Sensing Imagery Interpretation: A Survey and Taxonomy Keywords:multimodal remote sensing 本文強(qiáng)調(diào)了單模態(tài)和多模態(tài)遙感影像判讀之間的關(guān)鍵差異,然后利用這些差異來(lái)指導(dǎo)我們對(duì)級(jí)聯(lián)結(jié)構(gòu)中多模態(tài)遙感影像判讀的研究。最后,對(duì)未來(lái)可能的研究方向進(jìn)行了探討

    2024年02月02日
    瀏覽(26)
  • 論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    論文閱讀-基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述

    非核心 原文鏈接:基于深度學(xué)習(xí)的多模態(tài)情感分析研究綜述 - 中國(guó)知網(wǎng) (cnki.net) 深度學(xué)習(xí)完成多模態(tài)情感分析綜述。主要介紹 多模態(tài)情感分析 的概念、背景、意義??偨Y(jié)了 多模態(tài)融合技術(shù)和交互技術(shù) ,討論多模態(tài)情感分析 未來(lái)發(fā)展 。 目前經(jīng)典的多模態(tài)情感分析研究已經(jīng)

    2024年02月04日
    瀏覽(39)
  • [論文閱讀]MVX-Net——基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet

    [論文閱讀]MVX-Net——基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet

    MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標(biāo)檢測(cè)的多模態(tài)VoxelNet 論文網(wǎng)址:MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點(diǎn)云特征結(jié)合,從而提高3D目標(biāo)檢測(cè)的性能。論文的主要內(nèi)容和貢獻(xiàn)總結(jié)如下: 提出了兩種簡(jiǎn)單有效的多模

    2024年02月07日
    瀏覽(137)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包