摘要:
我們提出了一種與領(lǐng)域和用戶偏好無關(guān)的方法來檢測(cè)以人為中心的視頻中的精彩片段摘錄。我們的方法適用于視頻中多種可觀察到的以人為中心的模態(tài)的基于圖形的表示,例如姿勢(shì)和面部。我們使用配備時(shí)空?qǐng)D卷積的自動(dòng)編碼器網(wǎng)絡(luò)來檢測(cè)基于這些模式的人類活動(dòng)和交互。我們根據(jù)幀的代表性訓(xùn)練網(wǎng)絡(luò),將不同模態(tài)的基于活動(dòng)和交互的潛在結(jié)構(gòu)表示映射到每幀的突出得分。我們使用這些分?jǐn)?shù)來計(jì)算要突出顯示哪些幀并縫合連續(xù)幀以生成摘錄。我們?cè)诖笠?guī)模 AVA-Kinetics 動(dòng)作數(shù)據(jù)集上訓(xùn)練我們的網(wǎng)絡(luò),并在四個(gè)基準(zhǔn)視頻集錦數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)估:DSH、TVSum、PHD2 和 SumMe。我們觀察到,與這些數(shù)據(jù)集中最先進(jìn)的方法相比,匹配人工注釋的精彩片段的平均精度提高了 4-12%,而無需任何用戶提供的首選項(xiàng)或特定于數(shù)據(jù)集的微調(diào)。
引言:
以人為中心的視頻關(guān)注人類活動(dòng)、任務(wù)和情感 。來自多個(gè)領(lǐng)域(例如業(yè)余體育和表演、講座、教程、視頻博客 (vlog) 以及個(gè)人或團(tuán)體活動(dòng),例如野餐和戶外活動(dòng)、假期旅行)的視頻構(gòu)成了快速增長(zhǎng)的在線媒體數(shù)量的主要部分
然而,未經(jīng)編輯的以人為中心的視頻也往往包含大量不相關(guān)和不感興趣的內(nèi)容,需要對(duì)其進(jìn)行編輯以實(shí)現(xiàn)高效瀏覽。文章來源:http://www.zghlxwxcb.cn/news/detail-565694.html
為了解決這個(gè)問題,研究人員開發(fā)了多種技術(shù)來檢測(cè)精彩鏡頭的摘錄和總結(jié)視頻 。給定未經(jīng)編輯的鏡頭,高光檢測(cè)會(huì)獲取感興趣的時(shí)刻,而摘要會(huì)計(jì)算最相關(guān)和最具代表性的摘錄集。檢測(cè)有效的高光不僅可以加快瀏覽速度,還可以提高這些精彩鏡頭被共享和推薦的機(jī)會(huì)。當(dāng)前的方法可以學(xué)習(xí)在給定帶注釋的高光或不同高光類別的示例集的情況下檢測(cè)這些摘錄,例如,從滑雪圖像中學(xué)習(xí)以檢測(cè)視頻中的滑雪摘錄 。其他方法通過學(xué)習(xí)每個(gè)幀或鏡頭相對(duì)于原始視頻的代表性并利用視頻元數(shù)據(jù)(例如持續(xù)時(shí)間和鏡頭的相關(guān)性)來消除監(jiān)督學(xué)習(xí)。所有這些方法都假設(shè)或受益于未編輯鏡頭的某些特定領(lǐng)域知識(shí),例如,跑步和跳躍可文章來源地址http://www.zghlxwxcb.cn/news/detail-565694.html
到了這里,關(guān)于論文閱讀 HighlightMe: Detecting Highlights from Human-Centric Videos的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!