資料鏈接
論文鏈接:https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Progressive_Spatio-Temporal_Prototype_Matching_for_Text-Video_Retrieval_ICCV_2023_paper.pdf
代碼鏈接:https://github.com/imccretrieval/prost
背景與動機(jī)
文章發(fā)表于ICCV 2023,來自中科大IMCC實(shí)驗(yàn)室。
文本-視頻檢索是近年來比較新興的領(lǐng)域,隨著多模態(tài)和大模型的發(fā)展,這一領(lǐng)域也迸發(fā)出了前所未有的潛力。目前的主流方法是學(xué)習(xí)一個joint embedding space,將視頻和文本編碼成特征向量,在空間中含義相近的向量的位置也是相近的,從而通過計(jì)算向量間相似度實(shí)現(xiàn)檢索。本文梳理了近期的一些工作,主要分為以下三個方向:
細(xì)粒度匹配:單一的特征向量難以編碼豐富的細(xì)節(jié)信息,需要進(jìn)行更細(xì)粒度的視頻文本匹配。
多模態(tài)特征:視頻有著豐富的多模態(tài)信息,使用多種多模態(tài)特征可增強(qiáng)檢索性能。
大規(guī)模預(yù)訓(xùn)練:近年來大規(guī)模預(yù)訓(xùn)練廣泛應(yīng)用,經(jīng)過預(yù)訓(xùn)練的模型檢索能力得到顯著提升。
作者團(tuán)隊(duì)在這一問題上,主要著重于第一個方向的研究。
典型的解決方案是直接對齊整個視頻與句子的特征,這會忽視視頻內(nèi)容與文本的內(nèi)在關(guān)系。因此,匹配過程應(yīng)當(dāng)同時考慮細(xì)粒度的空間內(nèi)容和各種時間語義事件。這就是細(xì)粒度的匹配。
為此,作者團(tuán)隊(duì)提出一種具有漸進(jìn)式時空原型匹配的文本-視頻學(xué)習(xí)框架。它的大致框架如下:
方法
給定一個由n個視頻以及它們對應(yīng)的m個文本描述
組成的數(shù)據(jù)集,文本-視頻檢索(TVR)旨在學(xué)習(xí)一個函數(shù)
,以有效地衡量模態(tài)之間的相似性。
對于文本查詢,應(yīng)當(dāng)有:
?因此,需要強(qiáng)大的文本編碼網(wǎng)絡(luò)和視頻編碼網(wǎng)絡(luò)來生成高質(zhì)量的特征,從而實(shí)現(xiàn)有效的匹配。
采用 CLIP 作為骨干網(wǎng)絡(luò)。給定輸入視頻,均勻地選擇L個幀作為關(guān)鍵幀,提取連續(xù)特征:
其中是全局幀token特征,K是Patch數(shù)量,D是特征維數(shù),Xi的Shape是(K+1) × D。
給定查詢文本,添加開始token和結(jié)束token,輸出文本token特征可以定義為:
其中,是全局文本token特征,M和D分別是單詞和特征維數(shù),yi的Shape是(M+2) × D。
方法 - 總體框架
對象-短語原型匹配階段
空間原型生成機(jī)制預(yù)測關(guān)鍵Patch或單詞,這些Patch或單詞被聚合成對象或短語原型。重要的是,優(yōu)化對象-短語原型之間的局部對齊有助于模型感知空間細(xì)節(jié)。
事件-句子原型匹配階段
設(shè)計(jì)了一個時間原型生成機(jī)制,將幀內(nèi)對象與幀間時間關(guān)系相互關(guān)聯(lián)。這樣逐步生成的事件原型可以揭示視頻中的語義多樣性,用于動態(tài)匹配。
方法 - 對象短語原型匹配
相較于現(xiàn)有方法學(xué)習(xí)一個單一的Patch-Event投影,作者團(tuán)隊(duì)使用分而治之的方式解耦時空建模過程。
首先進(jìn)行Patch-對象和單詞-短語的空間原型聚合,來揭示關(guān)鍵的局部細(xì)節(jié)。
分為兩個步驟:
空間原型生成 Spatial Prototype Generation(SPG)
對于Patch特征,首先需要生成它們的空間對象原型:
使用兩個全連接(FC)層和ReLU函數(shù)來預(yù)測稀疏權(quán)重,其中No是對象原型的數(shù)目,這樣就可以避免對象原型受到冗余Patch的影響,從而使得對象原型更準(zhǔn)確、集中。
其中,Po為對象原型, Shape為No×D。
對于文本,同樣借鑒SPG機(jī)制,并設(shè)計(jì)了一個類似的網(wǎng)絡(luò)結(jié)構(gòu)來聚合單詞標(biāo)記,生成短語原型。
對象-短語匹配 Object-Phrase Matching
基于上一步驟生成的對象、文本原型,實(shí)現(xiàn)對象-短語原型匹配。
計(jì)算每個幀內(nèi)的對象-短語原型的最大相似度,將最相似的短語原型和每個對象原型關(guān)聯(lián)起來,反映了跨模態(tài)的細(xì)粒度分配。
然后,對于多幀對象相似度矩陣,找到跨幀序列的最大相似度分?jǐn)?shù),得到置信度更高的對象-短語匹配概率。最后將匹配得分求和,得到最終的相似性Sop:
其中,No是對象原型的數(shù)量、Np是短語原型的數(shù)量、L是幀的數(shù)量。
這一部分的矩陣處理細(xì)節(jié)如下所示:
Pp與Po相乘以后,得到的矩陣首先按列取最大值,得到下面的矩陣:
它的含義是,對于每個對象原型,其與短語原型的最大相似度。
然后,對于每個關(guān)鍵幀都有一個上述的矩陣,在跨幀之間再取對于每個對象原型與短語原型的最大相似度,從而得到置信度更高的對象-短語匹配分?jǐn)?shù):
方法 – 事件句子原型匹配
接下來,到了事件句子原型匹配階段。
時間原型生成 Temporal Prototype Generation(TPG)
直接基于全局幀特征獲得視頻級特征會導(dǎo)致模型不能感知局部細(xì)節(jié),并且只能得到單一的視頻級特征。
作者團(tuán)隊(duì)提出一種漸進(jìn)式的方法,逐步將對象原型聚合到幀原型中,然后進(jìn)行幀間交互,以生成各種事件原型。
首先設(shè)計(jì)一個幀解碼器,將所有對象原型聚合到幀級原型
中:
其中,是幀Query(Learnable),Ko和Vo是對象原型Po的線性變換后的特征。
注意力掩碼的定義是:
這一部分的矩陣處理細(xì)節(jié)如下所示:
注意觀察Mf與的關(guān)聯(lián),可以理解它的作用是使得注意力僅存在于同一幀的對象原型之間,從而不受到其他幀的對象原型的干擾。
Softmax后的權(quán)重再乘以對應(yīng)幀的????,從而得到幀原型矩陣Pf,形狀為(L × D)
后面使用全局幀信息Qf進(jìn)行一個Residual Connection。
將幀原型pf和相應(yīng)幀的原始全局特征xc相加,以增強(qiáng)模型的穩(wěn)健性:
然后,使用一個動態(tài)事件解碼器來學(xué)習(xí)Pf中的幀間關(guān)系,它可以獲得不同的事件原型 來展示視頻的豐富信息。
其中,是事件Query(Learnable),Kf和Vf是幀原型Pf的線性變換后的特征。
在訓(xùn)練過程中,每個事件Query都學(xué)習(xí)如何自適應(yīng)地聚焦于視頻幀原型,而多個Query隱含地保證了一定的事件多樣性。
事件句子匹配 Event-Sentence Matching
由于同一個視頻通常對應(yīng)多個文本語義描述,我們直接使用全局文本表示yE作為句子原型與事件原型Pe進(jìn)行對齊,找到句子原型與事件原型的最大相似度,作為最終的相似性Ses:
方法 – 訓(xùn)練與推斷
訓(xùn)練階段
采用InfoNCE損失函數(shù)來優(yōu)化batch內(nèi)的原型匹配。將文本-視頻對視為正樣本,同時考慮batch內(nèi)的其他成對組合作為負(fù)樣本:
其中,Sop、Ses分別為來自 對象短語原型匹配 和 事件句子原型匹配階段 的 對象-短語原型相似度 和 句子-事件原型相似度 。
推理階段
直接對最終相似度匹配加權(quán)了時空匹配得分:
其中是空間匹配因子。
實(shí)驗(yàn) – 評價指標(biāo)與結(jié)果
Recall@K (R@K)
這個指標(biāo)衡量在前K個檢索結(jié)果中正確匹配的比例。
Median Rank (MdR)
中位數(shù)排名指標(biāo)表示正確匹配項(xiàng)在所有檢索結(jié)果中的中位數(shù)排名。
Mean Rank (MnR)
平均排名指標(biāo)表示所有正確匹配項(xiàng)在所有檢索結(jié)果中的平均排名。
實(shí)驗(yàn) – 消融實(shí)驗(yàn)
- 只使用ESPM時,R@1下降了2.6個點(diǎn),證實(shí)了細(xì)粒度空間細(xì)節(jié)對于ESPM的補(bǔ)充作用。
- 只使用OPPM時,模型性能仍然較差,因?yàn)槠淙狈r間的理解,無法解決關(guān)系模糊性。
- 將SPG替換為TPG,性能下降說明了原始視頻標(biāo)記中存在冗余,SPG能夠有效地過濾冗余信息。
- 將TPG替換為SPG,性能下降說明了幀間信息的交互對于生成更好得到事件原型是很重要的
- -F、-M、-R(移除幀解碼器、attention mask、殘差連接)的結(jié)果下降,表明幀內(nèi)的局部對象關(guān)系和全局幀特征共同補(bǔ)充了全面的幀級空間信息。
- P-P、O-W(使用patch-phrase或object-word,而不是原型)表明使用原型匹配能減緩模態(tài)對齊問題。
- F-W、F-S(直接使用CLS或直接使用平均池化獲得幀token)會影響信息的細(xì)節(jié),從而降低性能。
- 在原型數(shù)量的設(shè)置上,也進(jìn)行了實(shí)驗(yàn),最后確定了最好的原型配置。表明在原型太多時會引入局部噪音,而太少時則無法表達(dá)語義。
- 同時也針對空間匹配因子β做了測試,找到了最合適的β值。表明需要同時合理地利用底層細(xì)粒度的空間信息和時間原型匹配,才能得到好的結(jié)果。
實(shí)驗(yàn) – 定性分析
原型可視化
通過對象原型和時間原型的可視化圖片,可以看見它們之間具體的匹配關(guān)系??梢钥吹讲煌氖录驮诓煌瑤系臋?quán)重差異很大,說明模型能夠?qū)W習(xí)到時間關(guān)系。
檢索結(jié)果
通過舉例分析說明了對象-短語原型匹配提供了重要的細(xì)粒度空間知識,從而能夠給出更好的查詢結(jié)果。
總結(jié)
提出了一種新穎的文本-視頻檢索框架,稱為ProST,將匹配過程分解為互補(bǔ)的對象-短語和事件-句子原型對齊。
在對象-短語原型匹配階段,設(shè)計(jì)了空間原型生成機(jī)制,以便專注于重要的視頻內(nèi)容并加強(qiáng)精細(xì)的空間對齊。
在事件-句子原型匹配階段,他們使用時間原型生成機(jī)制逐漸生成多樣化的事件原型,并學(xué)習(xí)動態(tài)的一對多關(guān)系。
希望通過這篇論文不僅能夠提供有關(guān)互補(bǔ)的時空匹配的重要性的見解,還能夠促進(jìn)未來的研究,通過解決設(shè)計(jì)缺陷而不是主要是嘗試和錯誤來推動文本-視頻檢索領(lǐng)域的進(jìn)展。
文章來源:http://www.zghlxwxcb.cn/news/detail-761262.html
個人感受
讀完這篇文章,唯一的感覺就是太花了,實(shí)在是太花了。學(xué)習(xí)之路任重而道遠(yuǎn)!文章來源地址http://www.zghlxwxcb.cn/news/detail-761262.html
到了這里,關(guān)于【論文閱讀】Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!