国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Cross-modal Moment Localization in Videos論文筆記

這篇具有很好參考價值的文章主要介紹了Cross-modal Moment Localization in Videos論文筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

0.來源

2018年 Cross-modal Moment Localization in Videos

1.摘要

一種稱為“語言-時間注意力網(wǎng)絡(luò)”的方法,該方法利用視頻中的時間上下文信息學(xué)習(xí)單詞的注意力。因此,我們的模型可以自動選擇“聽哪些單詞”以定位所需的瞬間。

2.介紹

以一個具有代表性的查詢來說:一個摩天輪首先進入視野。之前的模型對于第一次這個特點體現(xiàn)的不夠好,作者認為建立一個語言處理模型,對基于不同的視頻上下文從查詢中自適應(yīng)地選擇關(guān)鍵文本詞至關(guān)重要。
Cross-modal Moment Localization in Videos論文筆記
如圖1所示作者提出了一個跨模態(tài)時刻定位網(wǎng)絡(luò)(ROLE),它可以共同學(xué)習(xí)查詢表示和時間段定位。首先,作者設(shè)計了一個語言-時間注意力模塊,用于生成有效的查詢表示,根據(jù)查詢文本信息和時刻上下文信息自適應(yīng)地重新加權(quán)每個單詞的特征。然后,作者使用一個多模態(tài)處理模塊來聯(lián)合建模查詢和時間上下文特征。最后,作者訓(xùn)練了一個多層感知器(MLP)網(wǎng)絡(luò)來估計所需時刻的相關(guān)性分數(shù)和位置。

3.模型

3.1語言-時間注意網(wǎng)絡(luò)

Cross-modal Moment Localization in Videos論文筆記

文本進行word 編碼得到et,再雙向lstm得到每個word representations,再將時間時刻上下文輸入注意力模型,該模型能夠分配具有更高重要性分數(shù)的更有用的單詞。
Cross-modal Moment Localization in Videos論文筆記

Cross-modal Moment Localization in Videos論文筆記
在查詢中建立了每個單詞的集中嵌入后,我們可以構(gòu)造查詢的表示為:
Cross-modal Moment Localization in Videos論文筆記
然后q和c一起用MLP訓(xùn)練,輸出向量oL =[scq, δs, δe ]組成。匹配分數(shù)scq和定位偏差δs = ts?τs和δe= te?τe。

3.2損失函數(shù)

3.2.1對齊損失

和TALL方式一樣,給定從視頻V和查詢Q中提取的一組時刻候選C,我們將時刻查詢對分為兩組:對齊的P和不對齊的N。
Cross-modal Moment Localization in Videos論文筆記

3.2.2位置損失

Cross-modal Moment Localization in Videos論文筆記
c表示當(dāng)前的候選視頻片段,q表示文本描述, δs和δe分別表示c的起始幀與結(jié)束幀在視頻中的時間戳,δs?和δe?分別表示q所描述的時刻段的起始幀與結(jié)束幀在視頻中的時間戳。

訓(xùn)練階段,偏移回歸損失只在正樣本上執(zhí)行。作為測試階段,一旦我們獲得了一個對齊得分最高的候選矩,我們就可以添加具有偏移值的預(yù)測位置

3.2.2損失函數(shù)

Cross-modal Moment Localization in Videos論文筆記

4.實驗

4.1數(shù)據(jù)集

Charades-STA:TALL論文中提出的數(shù)據(jù)集
DiDeMo:MCN模型論文提出的數(shù)據(jù)集

4.2性能比較

Cross-modal Moment Localization in Videos論文筆記
Cross-modal Moment Localization in Videos論文筆記

作者認為文章來源地址http://www.zghlxwxcb.cn/news/detail-490613.html

  • MCN表現(xiàn)最差,它簡單地將整個時刻集作為每個候選時刻的上下文特征,就會引入噪聲特征并導(dǎo)致負轉(zhuǎn)移,而且模態(tài)融合也不夠好。
  • CTRL也不夠理想,他對于整個查詢進行了整體編碼,忽視了查詢文本當(dāng)中的關(guān)鍵單詞。
  • 作者的ROLE表現(xiàn)的比較好
    Note:由于在DiDeMo數(shù)據(jù)集中,由于正樣本查詢對對齊得很好(即,它們之間沒有位置偏移),我們只利用對齊損失來訓(xùn)練CTRL和ROLE。

4.3 ROLE的幾種變體

  • ROLE_NT:每個單詞的注意值只與查詢和當(dāng)前時刻相關(guān),而不考慮其視頻上下文。
  • ROLE_NV:只依賴于查詢詞嵌入的查詢注意模型,而不是使用語言-時間上的注意。也就是說,消除了所有的時間視覺信息。
  • ROLE_BI:用Bi-LSTM的最后一個輸出的連接作為查詢嵌入。
  • ROLE_EQ:意思是我們將等式中的權(quán)重設(shè)置為單詞數(shù)量的平均值,即1/T。具體來說,T是輸入句子的單詞數(shù),這種設(shè)置有利于平衡每個單詞的貢獻。
    Cross-modal Moment Localization in Videos論文筆記

5.未來工作

  • 把相應(yīng)幀的空間信息整合到我們的模型中
  • 強化學(xué)習(xí)納入我們的模型,以自適應(yīng)地決定下一步看哪里和何時預(yù)測,而不需要通過多尺度滑動窗口分割生成候選時刻。
  • 我們計劃將哈希模塊合并到我們的模型中,以加快檢索過程。

到了這里,關(guān)于Cross-modal Moment Localization in Videos論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Cross-Modal Learning with 3D Deformable Attention for Action Recognition

    Cross-Modal Learning with 3D Deformable Attention for Action Recognition

    標(biāo)題:基于三維可變形注意力的跨模態(tài)學(xué)習(xí)用于動作識別 發(fā)表:ICCV2023 在基于視覺的動作識別中,一個重要的挑戰(zhàn)是將具有兩個或多個異構(gòu)模態(tài)的時空特征嵌入到單個特征中。在這項研究中,我們提出了一種 新的三維變形變壓器 ,用于動作識別, 具有自適應(yīng)時空感受野和跨

    2024年03月24日
    瀏覽(33)
  • OrienterNet: visual localization in 2D public maps with neural matching 論文閱讀

    OrienterNet: visual localization in 2D public maps with neural matching 論文閱讀

    題目 :OrienterNet: visual localization in 2D public maps with neural matching 作者 :Paul-Edouard Sarlin, Daniel DeTone 項目地址 :github.com/facebookresearch/OrienterNet 來源 :CVPR 時間 :2023 人類可以使用簡單的 2D 地圖在 3D 環(huán)境中定位自己。不同的是,視覺定位算法主要依賴于復(fù)雜的 3D 點云,隨著時

    2024年02月11日
    瀏覽(21)
  • 論文筆記:A Comprehensive Review of Indoor/Outdoor Localization Solutions in IoT era: Research Challenges

    論文筆記:A Comprehensive Review of Indoor/Outdoor Localization Solutions in IoT era: Research Challenges

    Computer Networks 2022 本地化或定位 使用某些固定節(jié)點和移動計算設(shè)備來識別可移動/固定設(shè)備(智能手機、無人機、手表、信標(biāo)和車輛)的位置 戶外定位【GPS、北斗。。。】 在城市地區(qū)和室內(nèi)環(huán)境中存在一些局限性 室內(nèi)環(huán)境更復(fù)雜,周圍有許多物體 信號干擾 建筑物內(nèi)的反射高

    2024年02月03日
    瀏覽(33)
  • 【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    【論文閱讀筆記】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介紹了一種名為“M3Care”的模型,旨在處理多模態(tài)醫(yī)療保健數(shù)據(jù)中的缺失模態(tài)問題。這個模型是端到端的,能夠補償病人缺失模態(tài)的信息,以執(zhí)行臨床分析。M3Care不是生成原始缺失數(shù)據(jù),而是在潛在空間中估計缺失模態(tài)的任務(wù)相關(guān)信息,利用來自具有相似未缺失模態(tài)的

    2024年02月04日
    瀏覽(49)
  • 詳解KITTI視覺3D檢測模型CMKD: Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection

    詳解KITTI視覺3D檢測模型CMKD: Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection

    本文介紹一篇激光雷達監(jiān)督視覺傳感器的3D檢測模型: CMKD ,論文收錄于 ECCV2022 。 在本文中,作者提出了用于單目3D檢測的 跨模態(tài)知識蒸餾 (CMKD) 網(wǎng)絡(luò) ,使用激光雷達模型作為教師模型,監(jiān)督圖像模型(圖像模型為CaDDN)。 此外,作者通過 從大規(guī)模未標(biāo)注的數(shù)據(jù)中提取知識

    2024年01月24日
    瀏覽(27)
  • wav2lip:Accurately Lip-syncing Videos In The Wild

    wav2lip:Accurately Lip-syncing Videos In The Wild

    飛槳AI Studio - 人工智能學(xué)習(xí)與實訓(xùn)社區(qū) 集開放數(shù)據(jù)、開源算法、免費算力三位一體,為開發(fā)者提供高效學(xué)習(xí)和開發(fā)環(huán)境、高價值高獎金競賽項目,支撐高校老師輕松實現(xiàn)AI教學(xué),并助力開發(fā)者學(xué)習(xí)交流,加速落地AI業(yè)務(wù)場景 https://aistudio.baidu.com/aistudio/education/group/info/16651 wav

    2024年02月06日
    瀏覽(26)
  • 論文閱讀 HighlightMe: Detecting Highlights from Human-Centric Videos

    摘要: 我們提出了一種與領(lǐng)域和用戶偏好無關(guān)的方法來檢測以人為中心的視頻中的精彩片段摘錄。我們的方法適用于視頻中多種可觀察到的以人為中心的模態(tài)的基于圖形的表示,例如姿勢和面部。我們使用配備時空圖卷積的自動編碼器網(wǎng)絡(luò)來檢測基于這些模式的人類活動和交

    2024年02月16日
    瀏覽(28)
  • [論文閱讀]Self-Supervised Learning for Videos: A Survey

    [論文閱讀]Self-Supervised Learning for Videos: A Survey

    Schiappa, M. C., Rawat, Y. S., Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925 論文中文名稱:視頻的自監(jiān)督學(xué)習(xí)綜述 摘要: 深度學(xué)習(xí)在各個領(lǐng)域取得的顯著成功依賴于大規(guī)模標(biāo)注數(shù)據(jù)集的可用性。然而,獲取標(biāo)注是昂貴且需要巨

    2024年01月17日
    瀏覽(25)
  • GTC 2023 萬字紀要 | Don‘t Miss This Defining Moment in AI

    GTC 2023 萬字紀要 | Don‘t Miss This Defining Moment in AI

    「Don’t Miss This Defining Moment in AI」 「切勿錯過 AI 的決定性時刻」 北京時間 2023 年 3 月 21 日 23:00,「皮衣刀客」黃教主在 GTC 2023 發(fā)表主題如上的 Keynote 演講,并稱「這將是我們迄今為止最重要的一次 GTC」,NVIDIA官方 Twitter 也放出了本屆?GTC 的 AI Wave Top 5. 作為圖形技術(shù)革命的

    2024年02月12日
    瀏覽(19)
  • 【論文筆記】ObjectFormer for Image Manipulation Detection and Localization

    【論文筆記】ObjectFormer for Image Manipulation Detection and Localization

    發(fā)布于CVPR2022 論文鏈接:https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_ObjectFormer_for_Image_Manipulation_Detection_and_Localization_CVPR_2022_paper.pdf 在本文中,我們提出了ObjectFormer來檢測和定位圖像操作。 為了捕捉在RGB域中不再可見的細微操作軌跡,我們提取圖像的高頻特征,并將其與R

    2024年02月04日
    瀏覽(55)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包