0.來源
2018年 Cross-modal Moment Localization in Videos
1.摘要
一種稱為“語言-時間注意力網(wǎng)絡(luò)”的方法,該方法利用視頻中的時間上下文信息學(xué)習(xí)單詞的注意力。因此,我們的模型可以自動選擇“聽哪些單詞”以定位所需的瞬間。
2.介紹
以一個具有代表性的查詢來說:一個摩天輪首先進入視野。之前的模型對于第一次這個特點體現(xiàn)的不夠好,作者認為建立一個語言處理模型,對基于不同的視頻上下文從查詢中自適應(yīng)地選擇關(guān)鍵文本詞至關(guān)重要。
如圖1所示作者提出了一個跨模態(tài)時刻定位網(wǎng)絡(luò)(ROLE),它可以共同學(xué)習(xí)查詢表示和時間段定位。首先,作者設(shè)計了一個語言-時間注意力模塊,用于生成有效的查詢表示,根據(jù)查詢文本信息和時刻上下文信息自適應(yīng)地重新加權(quán)每個單詞的特征。然后,作者使用一個多模態(tài)處理模塊來聯(lián)合建模查詢和時間上下文特征。最后,作者訓(xùn)練了一個多層感知器(MLP)網(wǎng)絡(luò)來估計所需時刻的相關(guān)性分數(shù)和位置。
3.模型
3.1語言-時間注意網(wǎng)絡(luò)
文本進行word 編碼得到et,再雙向lstm得到每個word representations,再將時間時刻上下文輸入注意力模型,該模型能夠分配具有更高重要性分數(shù)的更有用的單詞。
在查詢中建立了每個單詞的集中嵌入后,我們可以構(gòu)造查詢的表示為:
然后q和c一起用MLP訓(xùn)練,輸出向量oL =[scq, δs, δe ]組成。匹配分數(shù)scq和定位偏差δs = ts?τs和δe= te?τe。
3.2損失函數(shù)
3.2.1對齊損失
和TALL方式一樣,給定從視頻V和查詢Q中提取的一組時刻候選C,我們將時刻查詢對分為兩組:對齊的P和不對齊的N。
3.2.2位置損失
c表示當(dāng)前的候選視頻片段,q表示文本描述, δs和δe分別表示c的起始幀與結(jié)束幀在視頻中的時間戳,δs?和δe?分別表示q所描述的時刻段的起始幀與結(jié)束幀在視頻中的時間戳。
訓(xùn)練階段,偏移回歸損失只在正樣本上執(zhí)行。作為測試階段,一旦我們獲得了一個對齊得分最高的候選矩,我們就可以添加具有偏移值的預(yù)測位置
3.2.2損失函數(shù)
4.實驗
4.1數(shù)據(jù)集
Charades-STA:TALL論文中提出的數(shù)據(jù)集
DiDeMo:MCN模型論文提出的數(shù)據(jù)集
4.2性能比較
文章來源:http://www.zghlxwxcb.cn/news/detail-490613.html
作者認為文章來源地址http://www.zghlxwxcb.cn/news/detail-490613.html
- MCN表現(xiàn)最差,它簡單地將整個時刻集作為每個候選時刻的上下文特征,就會引入噪聲特征并導(dǎo)致負轉(zhuǎn)移,而且模態(tài)融合也不夠好。
- CTRL也不夠理想,他對于整個查詢進行了整體編碼,忽視了查詢文本當(dāng)中的關(guān)鍵單詞。
- 作者的ROLE表現(xiàn)的比較好
Note:由于在DiDeMo數(shù)據(jù)集中,由于正樣本查詢對對齊得很好(即,它們之間沒有位置偏移),我們只利用對齊損失來訓(xùn)練CTRL和ROLE。
4.3 ROLE的幾種變體
- ROLE_NT:每個單詞的注意值只與查詢和當(dāng)前時刻相關(guān),而不考慮其視頻上下文。
- ROLE_NV:只依賴于查詢詞嵌入的查詢注意模型,而不是使用語言-時間上的注意。也就是說,消除了所有的時間視覺信息。
- ROLE_BI:用Bi-LSTM的最后一個輸出的連接作為查詢嵌入。
- ROLE_EQ:意思是我們將等式中的權(quán)重設(shè)置為單詞數(shù)量的平均值,即1/T。具體來說,T是輸入句子的單詞數(shù),這種設(shè)置有利于平衡每個單詞的貢獻。
5.未來工作
- 把相應(yīng)幀的空間信息整合到我們的模型中
- 強化學(xué)習(xí)納入我們的模型,以自適應(yīng)地決定下一步看哪里和何時預(yù)測,而不需要通過多尺度滑動窗口分割生成候選時刻。
- 我們計劃將哈希模塊合并到我們的模型中,以加快檢索過程。
到了這里,關(guān)于Cross-modal Moment Localization in Videos論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!