摘要
圖像-文本檢索旨在彌合模態(tài)鴻溝,根據(jù)語(yǔ)義相似性檢索跨模態(tài)內(nèi)容。之前的工作通常側(cè)重于成對(duì)關(guān)系(即一個(gè)數(shù)據(jù)樣本是否與另一個(gè)樣本匹配),但忽略了高階鄰接關(guān)系(即多個(gè)數(shù)據(jù)樣本之間的匹配結(jié)構(gòu))。重新排序是一種流行的后處理方法,它揭示了在單模態(tài)檢索任務(wù)中捕捉鄰接關(guān)系的優(yōu)越性。然而,將現(xiàn)有的重新排序算法直接擴(kuò)展到圖像文本檢索中效果并不理想。本文從泛化性、靈活性、稀疏性和不對(duì)稱性四個(gè)角度分析了原因,并提出了一種新穎的基于可學(xué)習(xí)支柱的重新排序范式。具體來(lái)說(shuō),我們首先選擇排名靠前的模內(nèi)和模間鄰居作為支柱,然后利用數(shù)據(jù)樣本與支柱之間的鄰居關(guān)系重建數(shù)據(jù)樣本。這樣,每個(gè)樣本只需利用相似性就能映射到多模態(tài)支柱空間,從而確保泛化。之后,我們?cè)O(shè)計(jì)了一個(gè)鄰域感知圖推理模塊,以靈活利用這些關(guān)系,挖掘鄰域內(nèi)的稀疏正項(xiàng)。我們還提出了一種結(jié)構(gòu)對(duì)齊約束,以促進(jìn)跨模態(tài)協(xié)作并對(duì)齊非對(duì)稱模態(tài)。在各種基礎(chǔ)骨架之上,我們?cè)趦蓚€(gè)基準(zhǔn)數(shù)據(jù)集(即 Flickr30K 和 MS-COCO)上進(jìn)行了廣泛的實(shí)驗(yàn),證明了我們提出的重新排序范式的有效性、優(yōu)越性、通用性和可移植性。
簡(jiǎn)介
雙流和單流框架都只考慮圖像和文本之間的配對(duì)匹配關(guān)系,如圖1(a)所示。它們完全忽略了圖1(b)中所示的多個(gè)圖像和文本之間的高階鄰居關(guān)系,因此檢索性能不佳。作為探索鄰居關(guān)系的后處理技術(shù),重新排序在傳統(tǒng)的單模態(tài)檢索任務(wù)中顯示出顯著的有效性。
圖 1:(a) 成對(duì)關(guān)系、(b) 鄰接關(guān)系和( c) 支柱空間結(jié)構(gòu)的圖示。與配對(duì)關(guān)系相比,高階鄰接關(guān)系是一種匹配結(jié)構(gòu),包括查詢-鄰接(如 q? ??)和鄰接-鄰接(如 ?? ? ??)關(guān)系。在一個(gè)鄰域中,排名靠前的鄰居被選為支柱,以構(gòu)建支柱空間來(lái)表示數(shù)據(jù)樣本。數(shù)字表示由基本骨干計(jì)算出的相似度。
現(xiàn)有的重新排序方法可分為三大類:查詢擴(kuò)展(QE)[8,35]、擴(kuò)散[16]和基于鄰居的方法[48]。然而,由于以下挑戰(zhàn),它們不適合跨模態(tài)ITR:泛化性、靈活性、稀疏性和不對(duì)稱性。
為了應(yīng)對(duì)上述挑戰(zhàn),我們提出了一種可學(xué)習(xí)的基于支柱的重排序(LeaPRR)框架。
-
首先,為了很好地適應(yīng)單塔和雙塔框架,我們放棄了任何中間內(nèi)容特征,只將任何框架都能計(jì)算出的最終相似度作為重排模型的輸入。為了使實(shí)體(即查詢和條目)的表示更具信息性,我們將排名靠前的多模態(tài)相鄰實(shí)體定義為支柱,然后根據(jù)支柱與這些實(shí)體之間的相似性重建實(shí)體,如圖 1? 所示。這樣,每個(gè)實(shí)體都可以映射到支柱空間中。與傳統(tǒng)的獨(dú)立于模態(tài)的內(nèi)容空間不同,支柱空間是用多模態(tài)支柱來(lái)構(gòu)建的,以緩解不對(duì)稱問(wèn)題。
-
此外,針對(duì)靈活性和稀疏性的挑戰(zhàn),我們提出了基于以給定查詢?yōu)橹行牡泥徲虻泥徲蚋兄獔D推理模塊,以靈活探索復(fù)雜的鄰域關(guān)系,包括查詢-鄰域和鄰域-鄰域關(guān)系。
-
為了進(jìn)一步處理正向項(xiàng)目的高稀疏性問(wèn)題,我們施加了局部和全局排序約束,以加強(qiáng)精煉支柱特征的判別能力,它可以自適應(yīng)地吸收有價(jià)值的信息,抵御來(lái)自鄰居的噪音。
-
最后,我們提出了一種結(jié)構(gòu)對(duì)齊約束,將上下文結(jié)構(gòu)從一種模式轉(zhuǎn)換到另一種模式,進(jìn)一步解決了不對(duì)稱問(wèn)題。
總之,我們的主要貢獻(xiàn)如下:
- 我們討論了 ITR 任務(wù)中現(xiàn)有重新排序方法的局限性,并提出了四個(gè)挑戰(zhàn),即泛化、靈活性、稀疏性和不對(duì)稱性。
- 為了應(yīng)對(duì)這四個(gè)挑戰(zhàn),我們重新定義了多模態(tài)領(lǐng)域的重新排序,并首次提出了一種可學(xué)習(xí)的基于支柱的重新排序范式,這種范式即插即用,適用于所有現(xiàn)有的 ITR 主干網(wǎng)。
- 在 Flickr30K [42] 和 MS-COCO [20] 兩個(gè)數(shù)據(jù)集上基于不同基礎(chǔ) ITR主干網(wǎng)的廣泛實(shí)驗(yàn)驗(yàn)證了我們模型的有效性和優(yōu)越性。
相關(guān)工作
大多數(shù)現(xiàn)有研究都側(cè)重于在聯(lián)合嵌入空間中表示數(shù)據(jù)樣本或深入挖掘細(xì)粒度的跨模態(tài)排列,但卻忽略了高效實(shí)用的后處理程序,即重新排序(re-ranking)。
方法
我們提出的 LeaPRR 的整體框架如圖 3 所示。下面,我們將首先介紹跨模態(tài) ITR 重排序的問(wèn)題定義,然后詳細(xì)闡述基于支柱的表示法和鄰居感知圖推理。最后,我們將介紹支柱空間中的學(xué)習(xí)策略。
問(wèn)題定義
給定一個(gè)查詢(圖像或文本)和另一種模式的數(shù)據(jù)庫(kù),即 D = {??1, . , ???? },我們首先通過(guò)一個(gè)基礎(chǔ) ITR 主干網(wǎng) ?? 計(jì)算查詢與 D 中每個(gè)項(xiàng) ???? 之間的初始相似度 ?? (stood,????) 。它可以通過(guò)單流或雙流網(wǎng)絡(luò)實(shí)現(xiàn)。前者[19]通常將??視為從兩個(gè)分支中提取的嵌入之間的余弦相似度,而后者則將??視為綜合的模態(tài)間交互模塊,如交叉注意[6, 39]。之后,我們可以通過(guò)降序排序相似度來(lái)獲得初始排名列表 R(q,D)。
ITR 重新排序的目標(biāo)是完善初始排序列表,使那些與查詢語(yǔ)義匹配度高的項(xiàng)目在完善后的排序列表中排名靠前,反之亦然,排序列表用 R? (q, D)表示。在這項(xiàng)工作中,我們將重點(diǎn)放在對(duì) R (q,D) 中排名靠前的項(xiàng)目進(jìn)行重新排序上,因?yàn)樵趯?shí)際場(chǎng)景中,用戶總是更關(guān)注排名靠前的檢索結(jié)果。
我們考慮了兩種檢索設(shè)置: 圖像到文本 (I2T),即 ? = ?? ,D := D?? ,和文本到圖像 (T2I),即 ? := ?? ,D := D?? 。考慮到除檢索方向外的高度一致性,我們將在不失一般性的前提下闡述 I2T 設(shè)置下的方法。此外,我們將使用項(xiàng)目來(lái)表示給定圖像(或文本)查詢的所有檢索文本(或圖像),使用鄰域來(lái)表示排名靠前的項(xiàng)目,使用實(shí)體來(lái)表示任何查詢或項(xiàng)目。
圖 3:提出的 LeaPRR 模型示意圖(圖像到文本方向)。給定圖像查詢和數(shù)據(jù)庫(kù)后,通過(guò)基礎(chǔ)檢索器獲得初始排名列表。然后選擇排名靠前的多模態(tài)鄰域作為支柱,構(gòu)建多模態(tài)支柱空間。在這個(gè)空間中,對(duì)每個(gè)數(shù)據(jù)樣本進(jìn)行基于支柱的表示。然后,通過(guò)基于鄰居和基于學(xué)習(xí)的親緣關(guān)系構(gòu)建圖,并進(jìn)行鄰居感知圖推理。最后,該模型通過(guò)三個(gè)約束條件學(xué)習(xí)鄰接關(guān)系以重新排序。
基于支柱的表示法
對(duì)于雙流 I2T 框架,我們可以輕松訪問(wèn)每種模式的中間特征,并利用它們來(lái)豐富查詢或項(xiàng)目表示法,以便重新排序[13, 35]。然而,由于跨模態(tài)交互模塊的存在,單塔 I2T 框架無(wú)法做到這一點(diǎn)。有鑒于此,使用中間表征來(lái)優(yōu)化雙塔和單塔框架的排序結(jié)果是不現(xiàn)實(shí)的。因此,我們采用跨模態(tài)相似性對(duì)圖像-文本檢索進(jìn)行重新排序。然而,如何表示圖像或文本,并僅根據(jù)相似性對(duì)它們進(jìn)行比較,成為一個(gè)亟待解決的問(wèn)題。
俗話說(shuō) “物以類聚”。我們可以用固有的外貌特征來(lái)描述一個(gè)人,如身高、體重、膚色、臉型、發(fā)型等。同時(shí),我們還可以通過(guò)他與其他人的關(guān)系來(lái)描繪這個(gè)人。例如,如果兩個(gè)人有共同的家庭成員,那么就有理由認(rèn)為他們?cè)谕饷采舷嗨?;如果有共同的偶像?或朋友,那么就有理由認(rèn)為他們?cè)谂d趣愛(ài)好上相似。這啟發(fā)我們,我們不僅可以用實(shí)體的內(nèi)部?jī)?nèi)容/屬性來(lái)表示實(shí)體,還可以用實(shí)體與其他實(shí)體之間的外部關(guān)系來(lái)表示實(shí)體。
雖然可以利用他人作為參照物來(lái)表示一個(gè)項(xiàng)目,但這并不意味著任何人都可以承擔(dān)責(zé)任。舉例來(lái)說(shuō),一個(gè)人不熟悉的人就不能作為參照來(lái)歧視他。因此,項(xiàng)目與所選參照物之間的關(guān)系不應(yīng)非常稀疏。我們將在下文中詳細(xì)介紹如何選擇此類參照物,并利用它們作為表示項(xiàng)目的參照物。
多模態(tài)支柱選擇:給定 I2T 檢索的初始排序列表 R (??, D?? ) = {??1, …,???? },我們選取前??(?? < ?? )文本作為上述參考文獻(xiàn)。在我們的工作中,這些選定的參考文獻(xiàn)被定義為支柱。為簡(jiǎn)單起見(jiàn),我們將 R (??, D?? ) 改為 R??→?? ,并使用 R??→?? 1:?? = {??1, …, ???? } 來(lái)表示查詢的模式間支柱 ?? 。為了進(jìn)一步提高表示能力,我們建議從模內(nèi)數(shù)據(jù)庫(kù) D?? 中挖掘模內(nèi)支柱。具體來(lái)說(shuō),我們應(yīng)用圖像編碼器???? 提取特征,然后計(jì)算它們之間的成對(duì)相似度。之后,基于模內(nèi)排序列表 R (??, D?? ) = {??1, …, ???? }, 簡(jiǎn)稱 R??→?? ,我們收集一組查詢 ?? 的模內(nèi)支柱1,如 R??→?? 1:?? = {??1, …, ???? }。
基于支柱的編碼:在支柱的基礎(chǔ)上,我們對(duì)查詢圖像 ?? 及其頂層相鄰文本 {??1, … ,???? } 如下: v = [⊕????=1?? (??, ???? ), ⊕?? ??=1?? (??, ?? ?? )], t?? = [⊕????=1?? (????, ???? ), ⊕?? ??=1?? (?? ?? , ???? )], (1) 其中,⊕ 表示連接運(yùn)算符、 v ∈ R2?? 和 t??∈ R2?? 分別表示查詢?? 及其第?? 個(gè)相鄰???? 的基于支柱的表示,?? 可以是計(jì)算圖像-文本相似性的任何基礎(chǔ)骨干,?? 是模內(nèi)相似性計(jì)算模型。具體來(lái)說(shuō),?? (??, ???? ) = cos(???? (?? ),???? (?? ?? )), ?? (????,???? ) = cos(???? (???? ),???? (???? )), 其中 ???? 和 ???? 分別是圖像編碼器和文本編碼器。
鄰居感知圖推理
重新排序的關(guān)鍵之一是對(duì)包括查詢及其鄰居在內(nèi)的鄰居中的高階鄰居關(guān)系進(jìn)行建模。在這個(gè)問(wèn)題上,我們定制了一個(gè)基于圖的鄰居傳播,以自適應(yīng)地捕獲查詢鄰居和鄰居-鄰居關(guān)系。在完成支柱編碼之后,我們能夠在支柱空間中表示查詢及其鄰居。在這個(gè)空間中,我們將每個(gè)項(xiàng)目(即查詢或鄰居)視為一個(gè)節(jié)點(diǎn),然后根據(jù)它們的親和性得分將它們連接起來(lái)。
從支柱空間學(xué)習(xí)
在圖像和文本之間的成對(duì)監(jiān)督下,我們的模型在以下三個(gè)約束下進(jìn)行了優(yōu)化。
全球?qū)Ρ榷葥p失。我們采用對(duì)比度損失[14]來(lái)強(qiáng)制查詢盡可能接近正面,遠(yuǎn)離負(fù)面。
局部Triplet損失。與本質(zhì)上迫使所有正對(duì)相似的對(duì)比損失不同,基于鉸鏈的三元組損失[37]關(guān)注局部相對(duì)接近性,并在一定程度上允許正之間的差異,使其不那么貪婪。在本文中,考慮頂部的負(fù)樣本-??鄰居已經(jīng)很難了,我們沒(méi)有進(jìn)行最難的負(fù)向挖掘,而是轉(zhuǎn)向最難的正向挖掘,這使得它與對(duì)比損失互補(bǔ)。
相互模態(tài)對(duì)齊。到目前為止,我們已經(jīng)說(shuō)明了I2T子模型的機(jī)制。類似地,我們可以通過(guò)將查詢和數(shù)據(jù)庫(kù)分別分配為文本來(lái)導(dǎo)出T2I子模型??和D??.要集成這兩個(gè)子模型,一種簡(jiǎn)單的方法是直接平均兩個(gè)相似之處,就像大多數(shù)先前的基本骨架[17,21,34]所做的那樣。然而,通過(guò)這種方式,兩個(gè)子模型是獨(dú)立訓(xùn)練的,不能相互促進(jìn)。受相互學(xué)習(xí)[40,45]的啟發(fā),我們?cè)O(shè)計(jì)了一種相互模態(tài)對(duì)齊方案,以激勵(lì)兩個(gè)子模型一起教學(xué)和促進(jìn)對(duì)方。以I2T為例,我們首先對(duì)查詢進(jìn)行跨模態(tài)正采樣??和每個(gè)鄰居????inD??, 獲得??′=??(??)和??′??=??(????), 哪里??(·)是采樣函數(shù)。具體地說(shuō),對(duì)于給定的實(shí)體,我們首先通過(guò)成對(duì)的地面實(shí)況信息在其他模態(tài)中找到它的正匹配,然后在存在多個(gè)正匹配的情況下對(duì)一個(gè)實(shí)體進(jìn)行一致采樣。在ward之后,我們分別計(jì)算了以為中心的兩個(gè)相似性分布??和??′。
實(shí)驗(yàn)
表 1:基于 VSE∞ 和 DIME? 的 Flickr30K 和 MS-COCO (5K) 數(shù)據(jù)集上,提出的 LeaPRR 與幾種基準(zhǔn)的性能比較。每個(gè)基準(zhǔn)的最佳性能以粗體標(biāo)出,次佳結(jié)果以下劃線標(biāo)出。提出方法的結(jié)果用灰色背景標(biāo)出。
實(shí)施細(xì)節(jié)
在我們的工作中,使用64個(gè)模態(tài)內(nèi)柱和64個(gè)模態(tài)間柱來(lái)構(gòu)建128維的柱空間,即。,??=64.I2T和T2I設(shè)置中的前32名和前8名項(xiàng)目分別被考慮重新排序。換句話說(shuō),??=32用于I2T和??=8用于T2I。此外,通過(guò)FC層映射的中間嵌入空間的維度被設(shè)置為768。(4) 設(shè)置為0.8。對(duì)于鄰居傳播,GCN層的數(shù)量設(shè)置為2。保證金??局部三重態(tài)損耗與溫度因子??分別設(shè)置為0.2和1.0。此外,我們使用了動(dòng)量為0.9、批大小為512的SGD優(yōu)化器。我們的模型被訓(xùn)練了30個(gè)時(shí)期,學(xué)習(xí)率為0.01。選擇驗(yàn)證集中rSum最高的檢查點(diǎn)進(jìn)行測(cè)試。在本文中,我們直接應(yīng)用開(kāi)源社區(qū)2中發(fā)布的預(yù)先訓(xùn)練的雙塔模型CAMERA[33]的視覺(jué)和文本分支2來(lái)計(jì)算模態(tài)內(nèi)相似性和收集的模態(tài)內(nèi)支柱,即R??→??1:??和R??→??1:??。
表4:Flickr30K和MS-COCO(5K)數(shù)據(jù)集上基于五個(gè)基本ITR架構(gòu)偽造評(píng)估的定量結(jié)果。與基礎(chǔ)骨干相比,提出的LeadRR實(shí)現(xiàn)的性能改進(jìn)以綠色標(biāo)記。
為了驗(yàn)證LeadRR是否能在不同的基礎(chǔ)ITR架構(gòu)中表現(xiàn)良好,我們將其插入五個(gè)具有代表性的架構(gòu):兩個(gè)單塔(SCAN和DIME)和三個(gè)雙塔(VSRN*、CAMERA*和VSE∞)架構(gòu),并將其與KRNN[38]進(jìn)行比較。Flickr30K和MS-COCO(5K)的結(jié)果如表4所示。在兩個(gè)數(shù)據(jù)集上的卓越性能,特別是R@1性能,驗(yàn)證了我們的方法強(qiáng)大的泛化能力,以及與當(dāng)前最先進(jìn)的KRNN相比的優(yōu)勢(shì),而不考慮基礎(chǔ)主干。
結(jié)論和未來(lái)工作
在本文中,我們提出了在重新排序范式中對(duì)圖像文本檢索的高階鄰居關(guān)系進(jìn)行建模。為此,我們首先深入研究了先前重新排序方法在多模態(tài)背景下的局限性,并提出了圖像文本檢索重新排序的四個(gè)挑戰(zhàn)。為了解決這四個(gè)問(wèn)題,我們重新制定了多模式重新排序,構(gòu)建了一個(gè)具有頂級(jí)鄰居的新支柱空間,并提出了一種基于學(xué)習(xí)的框架,該框架可以適應(yīng)單塔和雙塔框架,并靈活地探索實(shí)體之間復(fù)雜的鄰居關(guān)系。綜合實(shí)驗(yàn)證明了該方法的有效性、優(yōu)越性、推廣性和可移植性。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-795406.html
未來(lái),為了進(jìn)一步提高重新排序性能,我們計(jì)劃引入豐富的多模式外部知識(shí)來(lái)建模高階鄰居關(guān)系。此外,在所提出的重新排序范式的啟發(fā)下,我們計(jì)劃從更廣泛的角度探索不同下游檢索任務(wù)之間的可轉(zhuǎn)移性。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-795406.html
到了這里,關(guān)于跨模態(tài)檢索論文閱讀:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可學(xué)習(xí)支柱的圖像文本檢索重排的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!