国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval

這篇具有很好參考價值的文章主要介紹了【論文閱讀】Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

資料鏈接

論文鏈接:https://openaccess.thecvf.com/content/ICCV2023/papers/Li_Progressive_Spatio-Temporal_Prototype_Matching_for_Text-Video_Retrieval_ICCV_2023_paper.pdf
代碼鏈接:https://github.com/imccretrieval/prost

背景與動機(jī)

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

文章發(fā)表于ICCV 2023,來自中科大IMCC實(shí)驗(yàn)室。
文本-視頻檢索是近年來比較新興的領(lǐng)域,隨著多模態(tài)和大模型的發(fā)展,這一領(lǐng)域也迸發(fā)出了前所未有的潛力。目前的主流方法是學(xué)習(xí)一個joint embedding space,將視頻和文本編碼成特征向量,在空間中含義相近的向量的位置也是相近的,從而通過計(jì)算向量間相似度實(shí)現(xiàn)檢索。本文梳理了近期的一些工作,主要分為以下三個方向:
細(xì)粒度匹配:單一的特征向量難以編碼豐富的細(xì)節(jié)信息,需要進(jìn)行更細(xì)粒度的視頻文本匹配。
多模態(tài)特征:視頻有著豐富的多模態(tài)信息,使用多種多模態(tài)特征可增強(qiáng)檢索性能。
大規(guī)模預(yù)訓(xùn)練:近年來大規(guī)模預(yù)訓(xùn)練廣泛應(yīng)用,經(jīng)過預(yù)訓(xùn)練的模型檢索能力得到顯著提升。
作者團(tuán)隊(duì)在這一問題上,主要著重于第一個方向的研究。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

典型的解決方案是直接對齊整個視頻與句子的特征,這會忽視視頻內(nèi)容與文本的內(nèi)在關(guān)系。因此,匹配過程應(yīng)當(dāng)同時考慮細(xì)粒度的空間內(nèi)容和各種時間語義事件。這就是細(xì)粒度的匹配。
為此,作者團(tuán)隊(duì)提出一種具有漸進(jìn)式時空原型匹配的文本-視頻學(xué)習(xí)框架。它的大致框架如下:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

方法

給定一個由n個視頻progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀以及它們對應(yīng)的m個文本描述progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀組成的數(shù)據(jù)集,文本-視頻檢索(TVR)旨在學(xué)習(xí)一個函數(shù)progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀,以有效地衡量模態(tài)之間的相似性。

對于文本查詢progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀,應(yīng)當(dāng)有:progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

?因此,需要強(qiáng)大的文本編碼網(wǎng)絡(luò)和視頻編碼網(wǎng)絡(luò)來生成高質(zhì)量的特征,從而實(shí)現(xiàn)有效的匹配。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

采用 CLIP 作為骨干網(wǎng)絡(luò)。給定輸入視頻,均勻地選擇L個幀作為關(guān)鍵幀,提取連續(xù)特征:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

其中progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀是全局幀token特征,KPatch數(shù)量,D是特征維數(shù),XiShape(K+1) × D。

給定查詢文本,添加開始token和結(jié)束token,輸出文本token特征可以定義為:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

其中,progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀是全局文本token特征,MD分別是單詞和特征維數(shù),yiShape(M+2) × D。

方法 - 總體框架

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

對象-短語原型匹配階段

空間原型生成機(jī)制預(yù)測關(guān)鍵Patch或單詞,這些Patch或單詞被聚合成對象或短語原型。重要的是,優(yōu)化對象-短語原型之間的局部對齊有助于模型感知空間細(xì)節(jié)。

事件-句子原型匹配階段

設(shè)計(jì)了一個時間原型生成機(jī)制,將幀內(nèi)對象與幀間時間關(guān)系相互關(guān)聯(lián)。這樣逐步生成的事件原型可以揭示視頻中的語義多樣性,用于動態(tài)匹配。

方法 - 對象短語原型匹配

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

相較于現(xiàn)有方法學(xué)習(xí)一個單一的Patch-Event投影,作者團(tuán)隊(duì)使用分而治之的方式解耦時空建模過程。

首先進(jìn)行Patch-對象和單詞-短語的空間原型聚合,來揭示關(guān)鍵的局部細(xì)節(jié)。

分為兩個步驟:

空間原型生成 Spatial Prototype GenerationSPG

對于Patch特征,首先需要生成它們的空間對象原型:

使用兩個全連接(FC)層和ReLU函數(shù)來預(yù)測稀疏權(quán)重progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀,其中No是對象原型的數(shù)目,這樣就可以避免對象原型受到冗余Patch的影響,從而使得對象原型更準(zhǔn)確、集中。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀其中,Po為對象原型, ShapeNo×D。

對于文本,同樣借鑒SPG機(jī)制,并設(shè)計(jì)了一個類似的網(wǎng)絡(luò)結(jié)構(gòu)來聚合單詞標(biāo)記,生成短語原型progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

對象-短語匹配 Object-Phrase Matching

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

基于上一步驟生成的對象、文本原型,實(shí)現(xiàn)對象-短語原型匹配。

計(jì)算每個幀內(nèi)的對象-短語原型的最大相似度,將最相似的短語原型和每個對象原型關(guān)聯(lián)起來,反映了跨模態(tài)的細(xì)粒度分配。

然后,對于多幀對象相似度矩陣,找到跨幀序列的最大相似度分?jǐn)?shù),得到置信度更高的對象-短語匹配概率。最后將匹配得分求和,得到最終的相似性Sop

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

其中,No是對象原型的數(shù)量、Np是短語原型的數(shù)量、L是幀的數(shù)量。

這一部分的矩陣處理細(xì)節(jié)如下所示:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

Pp與Po相乘以后,得到的矩陣首先按列取最大值,得到下面的矩陣:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

它的含義是,對于每個對象原型progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀,其與短語原型的最大相似度。

然后,對于每個關(guān)鍵幀都有一個上述的矩陣,在跨幀之間再取對于每個對象原型與短語原型的最大相似度,從而得到置信度更高的對象-短語匹配分?jǐn)?shù)

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

方法 – 事件句子原型匹配

接下來,到了事件句子原型匹配階段。

時間原型生成 Temporal Prototype GenerationTPG

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

直接基于全局幀特征獲得視頻級特征會導(dǎo)致模型不能感知局部細(xì)節(jié),并且只能得到單一的視頻級特征。

作者團(tuán)隊(duì)提出一種漸進(jìn)式的方法,逐步將對象原型聚合到幀原型中,然后進(jìn)行幀間交互,以生成各種事件原型。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

首先設(shè)計(jì)一個幀解碼器,將所有對象原型progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀聚合到幀級原型progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀中:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

其中,progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀是幀Query(Learnable),KoVo是對象原型Po的線性變換后的特征。

注意力掩碼progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀的定義是:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

這一部分的矩陣處理細(xì)節(jié)如下所示:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

注意觀察Mf與progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀的關(guān)聯(lián),可以理解它的作用是使得注意力僅存在于同一幀的對象原型之間,從而不受到其他幀的對象原型的干擾。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

Softmax后的權(quán)重再乘以對應(yīng)幀的????從而得到幀原型矩陣Pf,形狀為(L × D

后面使用全局幀信息Qf進(jìn)行一個Residual Connection。

將幀原型pf和相應(yīng)幀的原始全局特征xc相加,以增強(qiáng)模型的穩(wěn)健性:progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

然后,使用一個動態(tài)事件解碼器來學(xué)習(xí)Pf中的幀間關(guān)系,它可以獲得不同的事件原型progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀 來展示視頻的豐富信息。

其中,progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀是事件Query(Learnable),KfVf是幀原型Pf的線性變換后的特征。

在訓(xùn)練過程中,每個事件Query都學(xué)習(xí)如何自適應(yīng)地聚焦于視頻幀原型,而多個Query隱含地保證了一定的事件多樣性。

事件句子匹配 Event-Sentence Matching

由于同一個視頻通常對應(yīng)多個文本語義描述,我們直接使用全局文本表示yE作為句子原型與事件原型Pe進(jìn)行對齊,找到句子原型與事件原型的最大相似度,作為最終的相似性Ses

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

方法 – 訓(xùn)練與推斷

訓(xùn)練階段

采用InfoNCE損失函數(shù)來優(yōu)化batch內(nèi)的原型匹配。將文本-視頻對視為正樣本,同時考慮batch內(nèi)的其他成對組合作為負(fù)樣本:

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

其中,Sop、Ses分別為來自 對象短語原型匹配 和 事件句子原型匹配階段 的 對象-短語原型相似度 和 句子-事件原型相似度 。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

推理階段

直接對最終相似度匹配加權(quán)了時空匹配得分:progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀
其中progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀是空間匹配因子。

實(shí)驗(yàn) – 評價指標(biāo)與結(jié)果

Recall@K (R@K)

這個指標(biāo)衡量在前K個檢索結(jié)果中正確匹配的比例。

Median Rank (MdR)

中位數(shù)排名指標(biāo)表示正確匹配項(xiàng)在所有檢索結(jié)果中的中位數(shù)排名。

Mean Rank (MnR)

平均排名指標(biāo)表示所有正確匹配項(xiàng)在所有檢索結(jié)果中的平均排名。

實(shí)驗(yàn) – 消融實(shí)驗(yàn)

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

此外,作者進(jìn)行了消融實(shí)驗(yàn)并做出了以下分析:
  • 只使用ESPM時,R@1下降了2.6個點(diǎn),證實(shí)了細(xì)粒度空間細(xì)節(jié)對于ESPM的補(bǔ)充作用。
  • 只使用OPPM時,模型性能仍然較差,因?yàn)槠淙狈r間的理解,無法解決關(guān)系模糊性。
  • SPG替換為TPG,性能下降說明了原始視頻標(biāo)記中存在冗余,SPG能夠有效地過濾冗余信息。
  • TPG替換為SPG,性能下降說明了幀間信息的交互對于生成更好得到事件原型是很重要的
  • -F、-M、-R(移除幀解碼器、attention mask、殘差連接)的結(jié)果下降,表明幀內(nèi)的局部對象關(guān)系和全局幀特征共同補(bǔ)充了全面的幀級空間信息。
  • P-PO-W(使用patch-phraseobject-word,而不是原型)表明使用原型匹配能減緩模態(tài)對齊問題。
  • F-WF-S(直接使用CLS或直接使用平均池化獲得幀token)會影響信息的細(xì)節(jié),從而降低性能。
  • 在原型數(shù)量的設(shè)置上,也進(jìn)行了實(shí)驗(yàn),最后確定了最好的原型配置。表明在原型太多時會引入局部噪音,而太少時則無法表達(dá)語義。
  • 同時也針對空間匹配因子β做了測試,找到了最合適的β值。表明需要同時合理地利用底層細(xì)粒度的空間信息和時間原型匹配,才能得到好的結(jié)果。

實(shí)驗(yàn) – 定性分析

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

原型可視化

通過對象原型和時間原型的可視化圖片,可以看見它們之間具體的匹配關(guān)系??梢钥吹讲煌氖录驮诓煌瑤系臋?quán)重差異很大,說明模型能夠?qū)W習(xí)到時間關(guān)系。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

檢索結(jié)果

通過舉例分析說明了對象-短語原型匹配提供了重要的細(xì)粒度空間知識,從而能夠給出更好的查詢結(jié)果。

總結(jié)

提出了一種新穎的文本-視頻檢索框架,稱為ProST,將匹配過程分解為互補(bǔ)的對象-短語和事件-句子原型對齊。

在對象-短語原型匹配階段,設(shè)計(jì)了空間原型生成機(jī)制,以便專注于重要的視頻內(nèi)容并加強(qiáng)精細(xì)的空間對齊。

在事件-句子原型匹配階段,他們使用時間原型生成機(jī)制逐漸生成多樣化的事件原型,并學(xué)習(xí)動態(tài)的一對多關(guān)系。

希望通過這篇論文不僅能夠提供有關(guān)互補(bǔ)的時空匹配的重要性的見解,還能夠促進(jìn)未來的研究,通過解決設(shè)計(jì)缺陷而不是主要是嘗試和錯誤來推動文本-視頻檢索領(lǐng)域的進(jìn)展。

progressive spatio-temporal prototype matching for text-video retrieval,論文閱讀,深度學(xué)習(xí),論文閱讀

個人感受

讀完這篇文章,唯一的感覺就是太花了,實(shí)在是太花了。學(xué)習(xí)之路任重而道遠(yuǎn)!文章來源地址http://www.zghlxwxcb.cn/news/detail-761262.html

到了這里,關(guān)于【論文閱讀】Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記:Spatio-Temporal Trajectory Similarity Measures: AComprehensive Survey and Quantitative Study

    論文筆記:Spatio-Temporal Trajectory Similarity Measures: AComprehensive Survey and Quantitative Study

    軌跡相似度測量在很多應(yīng)用中都起著基礎(chǔ)性的作用 不同的測量選擇可能導(dǎo)致完全不同的結(jié)果和質(zhì)量 以軌跡聚類為例,聚類旨在將相似的軌跡分組到集群中,其中相似度計(jì)算是聚類的基礎(chǔ)任務(wù) DTW和EDR聚類的效果千差萬別 1.1.1 軌跡相似度需要考量的四個軌跡特性 與孤立的空間

    2024年04月11日
    瀏覽(33)
  • 論文筆記:Accurate Map Matching Method for Mobile Phone Signaling Data Under Spatio-Temporal Uncertainty

    論文筆記:Accurate Map Matching Method for Mobile Phone Signaling Data Under Spatio-Temporal Uncertainty

    IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS 2023 1.1.1 GPS、CDR與MSD數(shù)據(jù) 之前的地圖匹配主要是針對GPS數(shù)據(jù) GPS數(shù)據(jù)在全球范圍內(nèi)可用且在定位上相對精確 然而, GPS也存在一些局限性 作為主動生成的數(shù)據(jù),GPS耗能大 由于需要主動收集,GPS可能無法隨時隨地獲得 ——以上兩點(diǎn)都限

    2024年01月18日
    瀏覽(55)
  • 【論文筆記】PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and

    【論文筆記】PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and

    PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization 發(fā)布于IEEE Transactions on Circuits and Systems for Video Technology 2021 論文鏈接:https://arxiv.org/pdf/2103.10596v2.pdf 一作開源代碼:https://github.com/proteus1991/pscc-net 開發(fā)了一種 漸進(jìn)式空間通道相關(guān)網(wǎng)絡(luò) (PSCC-Net) 對圖

    2024年02月01日
    瀏覽(40)
  • progressive random convolutions for single domain generalization論文閱讀過程

    progressive random convolutions for single domain generalization論文閱讀過程

    采用的是吳恩達(dá)老師的論文閱讀方法。 Multiple passes[多次通讀] Read the title/abstract/figures Title Progressive 采用漸進(jìn)的方式,逐步改進(jìn)模型性能或逐步引入新的技術(shù)。漸進(jìn)性通常表示逐步迭代和改進(jìn)。 Progressively stack randconv block【重復(fù)迭代】--block(變形偏移+仿射變換)【保留語義并

    2024年02月04日
    瀏覽(23)
  • 時序動作檢測/定位(Temporal Action Detection)(Temporal Action Localization)-約40篇論文閱讀筆記

    時序動作檢測/定位(Temporal Action Detection)(Temporal Action Localization)-約40篇論文閱讀筆記

    1 時序動作檢測(Temporal Action Detection)(Temporal Action Localization)-綜述 介紹1 介紹2 介紹3(老) 綜述 2 數(shù)據(jù)集介紹 THUMOS14(時序動作檢測)(本實(shí)驗(yàn)采用) THUMOS14測試集(用于可視化) 單個視頻 THUMOS14的np文件 THUMOS14的光流文件(google) 或者 THUMOS14的光流文件(騰訊云) EPIC-KITC

    2024年02月09日
    瀏覽(53)
  • Progressive Dual-Branch Network for Low-Light Image Enhancement 論文閱讀筆記

    Progressive Dual-Branch Network for Low-Light Image Enhancement 論文閱讀筆記

    這是22年中科院2區(qū)期刊的一篇有監(jiān)督暗圖增強(qiáng)的論文 網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示: ARM模塊如下圖所示: CAB模塊如下圖所示: LKA模塊其實(shí)就是放進(jìn)去了一些大卷積核: AFB模塊如下圖所示: 這些網(wǎng)絡(luò)結(jié)構(gòu)沒什么特別的,連來連去搞那么復(fù)雜沒什么意思,最終預(yù)測的結(jié)果是兩個支路的

    2024年02月16日
    瀏覽(24)
  • 【論文閱讀筆記】UNSUPERVISED REPRESENTATION LEARNING FOR TIME SERIES WITH TEMPORAL NEIGHBORHOOD CODING

    ?本文提出了一種自監(jiān)督框架,名為“時間鄰域編碼”(Temporal Neighborhood Coding,TNC),用于學(xué)習(xí)非平穩(wěn)時間序列的可泛化表示。該方法利用信號生成過程的局部平滑性來定義具有平穩(wěn)性質(zhì)的時間鄰域。通過使用去偏差對比目標(biāo),該框架通過確保在編碼空間中,來自鄰域內(nèi)的信

    2024年02月21日
    瀏覽(21)
  • 擴(kuò)散模型相關(guān)論文閱讀,擴(kuò)散模型和知識蒸餾的結(jié)合提升預(yù)測速度:Progressive Distillation for Fast Sampling of Diffusion Models

    擴(kuò)散模型相關(guān)論文閱讀,擴(kuò)散模型和知識蒸餾的結(jié)合提升預(yù)測速度:Progressive Distillation for Fast Sampling of Diffusion Models

    谷歌research的成果,ICLR 2022 https://arxiv.org/abs/2202.00512 tenserflow官方開源代碼: https://github.com/google-research/google-research/tree/master/diffusion_distillation pytorch非官方代碼:https://github.com/lucidrains/imagen-pytorch 1.擴(kuò)散模型雖然取得了很好的效果,但是預(yù)測速度慢。 2.作者提出了一種逐步蒸餾

    2024年02月16日
    瀏覽(20)
  • Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 論文閱讀筆記

    Ref 系列 UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 論文閱讀筆記

    寫在前面 ??這周得加更兩篇論文閱讀筆記,完成 2023 的 flag。 ??此論文也是 Arxiv 比較新的文章,設(shè)計(jì)了一個大一統(tǒng)模型,解決圖像和視頻的指代分割問題,應(yīng)該是篇大佬工作。 論文地址:UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces 代碼地址:https://github.com

    2024年02月03日
    瀏覽(20)
  • 【論文閱讀】Self-supervised Image-specific Prototype Exploration for WSSS

    【論文閱讀】Self-supervised Image-specific Prototype Exploration for WSSS

    一篇CVPR2022上的論文,用于弱監(jiān)督分割 Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation https://github.com/chenqi1126/SIPE https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf 現(xiàn)

    2024年02月11日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包