A Survey on Deep Learning Technique for Video Segmentation
0. 摘要
本文回顧視頻分割的兩條基本研究路線:視頻目標(biāo)分割(object segmentation)和視頻語義分割(semantic segmentation)。本文介紹它們各自的task setting、背景概念、感知需求、發(fā)展歷史以及主要挑戰(zhàn)。本文詳細概述相關(guān)的方法和數(shù)據(jù)集的代表性文獻。本文在一些知名的數(shù)據(jù)集上對這些方法檢測(benchmark)。最后,指出這些領(lǐng)域的opne issue以及未來的研究方向。
1. 簡介
視頻分割(找出視頻中具有特殊性質(zhì)或者語義(semantics)的關(guān)鍵目標(biāo))是計算機視覺(computer?vision,CV)中基礎(chǔ)且有挑戰(zhàn)性的的問題。它有無數(shù)潛在的應(yīng)用:自動駕駛、機器人、監(jiān)控(surveillance)、社交媒體、AR、電影制作以及視頻會議。
這個問題已經(jīng)被傳統(tǒng)的CV和機器學(xué)習(xí)(machine learning,ML)方法解決。包括:
- hand-crafted features (e.g., histogram statistics,?optical flow, etc.)
- heuristic prior knowledge (e.g., visual?attention mechanism, motion boundaries, etc.)
- low/mid-level visual representations (e.g., super-voxel,?trajectory, object proposal, etc.)
- classical machine?learning models (e.g., clustering, graph models,?random walks, support vector machines, random?decision forests, markov random fields, conditional?random fields, etc.)
最近,深度網(wǎng)絡(luò)(DNN),尤其是全卷積網(wǎng)絡(luò)(FCN)在視頻分割取的巨大進展。相比于傳統(tǒng)方法,這些基于深度學(xué)習(xí)(Deep Learning,DL)的(Video Segmentation,VS)算法有更高的精度(有時甚至更有效)。?
全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)采用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了從圖像像素到像素類別的變換。與卷積神經(jīng)網(wǎng)絡(luò)有所不同,全卷積網(wǎng)絡(luò)通過轉(zhuǎn)置卷積(transposed convolution)層將中間層特征圖的高和寬變換回輸入圖像的尺寸,從而令預(yù)測結(jié)果與輸入圖像在空間維(高和寬)上一一對應(yīng):給定空間維上的位置,通道維的輸出即該位置對應(yīng)像素的類別預(yù)測。
現(xiàn)在大多數(shù)的研究視角狹隘,例如,只關(guān)注視頻的前景/背景分割。本文系統(tǒng)地介紹了VS的最新進展,跨度從任務(wù)公式化(task formulation)到分類(taxonomy)、從算法到數(shù)據(jù)集、從未解決的問題到未來的研究方向,涵蓋的關(guān)鍵點包括:
- 任務(wù)類別(前景/背景分離、語義分割)
- 推斷模型(自動的、半自動的、交互的)
- 學(xué)習(xí)方式(監(jiān)督、無監(jiān)督、弱監(jiān)督)
- 澄清術(shù)語(減背景法(background subtraction)、運動分割(motion segmentation))
本文主要關(guān)注VS兩個主要分支(目標(biāo)分割、語義分割)的最新進展,之后會分為八個子領(lǐng)域。本文參考來自有名望的期刊和會議中有影響力的作品,也包含其他領(lǐng)域(例如:視覺跟蹤)中非深度學(xué)習(xí)的視頻分割模型和文獻。
上圖是本文回顧的視頻分割任務(wù):
- 目標(biāo)級自動視頻目標(biāo)分割(object-level AVOS)
- 實例級自動視頻目標(biāo)分割(instance-level AVOS)
- 半自動視頻目標(biāo)分割(SVOS)
- 交互式視頻目標(biāo)分割(IVOS)
- 語言引導(dǎo)的視頻目標(biāo)分割(LVOS)
- 視頻語義分割(VSS)
- 視頻實例分割(VIS)
- 視頻全景分割(video panoptic segmentation,VPS)
上圖是本文的結(jié)構(gòu)。
2. 背景
2.1 問題公式化和分類學(xué)
令 X 和 Y 分別表示輸入空間和輸出的分割空間,基于深度學(xué)習(xí)的VS就是要找到一個理想映射。
2.1.1 視頻分割(VS)的類別
基于如何定義輸出空間Y,VS大致可分為兩類:VOS、VSS。
視頻目標(biāo)(前景/背景)分割(VOS):Y 是一個二值的前景/背景分割空間。VOS應(yīng)用于視頻分析以及編輯場景,例如:移除電影中的目標(biāo)、基于內(nèi)容的視頻編碼、視頻會議中生成虛擬背景。
視頻語義分割(VSS):圖像語義分割向時空(spatio-temporal)域的直接擴展。目標(biāo)是從視頻中提取屬于預(yù)定義語義類別(例如:車、建筑物、人行道、道路)的對象。因此,Y 對應(yīng)一個多類別的語義解析(parsing)空間。VSS是許多應(yīng)用的的感知基礎(chǔ),這些應(yīng)用要求對環(huán)境的高度理解,例如:機器人感知、人機交互、自動駕駛。
評論:VOS和VSS有相同的挑戰(zhàn),例如:快速移動和目標(biāo)遮擋(object occlusion)。不同的應(yīng)用場景有不同的挑戰(zhàn)。例如:VOS通常關(guān)注人類創(chuàng)造的媒介,這些媒介具有較大的鏡頭移動、變形和外觀變化;VSS通常關(guān)注像自動駕駛這樣的應(yīng)用,要求精度和時延的權(quán)衡、對小目標(biāo)精確地探測、模型的并行性、跨域泛化能力。
2.1.2 視頻分割(VS)的推斷模式(Inference Modes)
基于人類參與推斷的程度,VOS又被進一步分成三類:自動、半自動、交互式。
自動視頻目標(biāo)分割(AVOS):又被成為無監(jiān)督VS、zero-shot VS。它自動執(zhí)行VOS,且不需要手動初始化。
半自動視頻目標(biāo)分割(SVOS):又被稱為半監(jiān)督學(xué)習(xí)、one-shot VS,通過有限的人類監(jiān)督(通常在第一幀提供)找出所需的目標(biāo)。典型的人類輸入是在視頻第一幀的目標(biāo)掩模(mask),這種情況下,SVOS也叫做像素跟蹤,或掩模傳播。從這個角度來看,語言引導(dǎo)的視頻目標(biāo)分割(LVOS)是SVOS的一個分支,其中,人類輸入是關(guān)于所需對象的語言描述。與AVOS相比,SVOS定義target objects更靈活,但需要人工輸入。
交互式視頻目標(biāo)分割(IVOS):一旦target確定,SVOS就自動運行;而IVOS的進程需要人為引導(dǎo)。
與VOS不同,VSS是自動模式,除了少量早期方法使用半自動模式,例如:label propagation。
2.1.3 視頻分割(VS)的學(xué)習(xí)方法
根據(jù)訓(xùn)練策略,基于DL的VS可以分為三個類別:監(jiān)督、半監(jiān)督、弱監(jiān)督。
監(jiān)督學(xué)習(xí):完全使用labelled data學(xué)習(xí),使模型輸出貼近label。?
無監(jiān)督(自監(jiān)督,self-supervised)學(xué)習(xí):完全使用unlabeled data學(xué)習(xí)。無監(jiān)督學(xué)習(xí)包括完全無監(jiān)督學(xué)習(xí)(不需要任何label)和自監(jiān)督學(xué)習(xí)(不需要人工標(biāo)注,使用自動生成的偽標(biāo)簽(pseudo labels)訓(xùn)練網(wǎng)絡(luò))。幾乎所有現(xiàn)存的無監(jiān)督VS都是自監(jiān)督學(xué)習(xí)。
弱監(jiān)督(weakly-supervised)學(xué)習(xí):使用有限數(shù)目的labelled data學(xué)習(xí),且該label易于標(biāo)注,例如:邊界。
2.2 歷史和術(shù)語
VS的早期嘗試是video over-segmentation:基于特定區(qū)域像素強度的不連續(xù)性和相似性。典型的方法包括:hierarchical?video segmentation,temporal superpixel,super-voxels。這些方法適用于視頻的預(yù)處理,但是不能解決目標(biāo)級的分割問題。因為它們不能把分層(hierarchical)視頻分解為二值分割。
二值分割:首先把圖像轉(zhuǎn)換成灰度圖像,然后設(shè)置一個用來進行二值分割的閾值,再遍歷灰度圖像的每個像素點。如果該像素點的灰度值大于閾值,就將該像素點灰度值設(shè)為255,如果該像素點的灰度值小于閾值,就將該像素點灰度值設(shè)為0。
為了從視頻序列中提取前景目標(biāo),在70年代后期,減背景法(background subtraction)出現(xiàn)了。?他們假設(shè)背景是先驗已知的,并且相機是靜止的或經(jīng)歷可預(yù)測的、參數(shù)化的2D或具有3D視差的3D運動。這些基于幾何的方法非常適合特定的應(yīng)用場景,如監(jiān)控系統(tǒng),但它們對模型選擇(2D或3D)敏感,無法處理相機非確定移動的場景。
視差(parallax):從不同位置觀察物體所產(chǎn)生的位置或方向上的差別
運動分割(motion segmentation):尋找運動的目標(biāo)。減背景法可視為運動分割的特例。然而,大多數(shù)運動分割模型是基于運動分析、因子分解和統(tǒng)計技術(shù)建立的,這些技術(shù)在相機運動模式未知的情況下對運動場景的特征進行建模。
軌跡分割(trajectory segmentation):運動分割的一種。軌跡由多個幀上的跟蹤點生成,表示長期的運動模式,可作為分割的信息提示。基于運動的方法嚴重依賴于光流估計的準(zhǔn)確性,并且當(dāng)物體的不同部分表現(xiàn)出不同的運動模式時,可能會失敗。
光流(optical flow):分析運動圖像的重要方法,指時變圖像中亮度模式的運動。因為當(dāng)物體在運動時,它在圖像上對應(yīng)點的亮度模式也在運動。(百科)
在分析光流時,需要用到兩個重要假設(shè):1.對象的像素強度在連續(xù)幀之間不會改變。2.相鄰像素具有相似的運動。(參考)
AVOS可以克服上面所說的限制。一些方法在視頻的每一幀中生成大量候選目標(biāo),并將分割視頻目標(biāo)的任務(wù)轉(zhuǎn)化為目標(biāo)區(qū)域選擇的問題。這些算法的主要缺點是計算量大以及復(fù)雜的目標(biāo)推斷。還有一些人探索了啟發(fā)式假設(shè),如visual-attention和運動邊界,但在啟發(fā)式假設(shè)不成立的場景中很容易失敗。?
啟發(fā)式(heuristic): “自我發(fā)現(xiàn)的能力”或“運用某種方式或方法去判定事物的知識和技能”
運動邊界(motion boundary):提取運動物體的邊界信息(輪廓)
早期的SVOS通常依賴于光流,且和目標(biāo)跟蹤很像。此外,IVOS在大量的人類指導(dǎo)下完成高質(zhì)量視頻分割任務(wù)。SVOS和IVOS的靈活性和準(zhǔn)確性的代價:由于人工參與,不可能大規(guī)模使用。
由于VSS任務(wù)的復(fù)雜性,在DL時代之前,相關(guān)研究很少。該方法主要依賴于有監(jiān)督的分類器(例如,SVM)以及video over-segmentation。
綜上,相比于以往的方法,基于DL的方法進一步提升了VS的性能。
2.3 相關(guān)研究領(lǐng)域
視覺跟蹤:為了推斷時變目標(biāo)的位置,現(xiàn)有方法通常假設(shè)目標(biāo)在視頻的第一幀就已經(jīng)被圈定了。視覺跟蹤和VS有一些共通的挑戰(zhàn)(例如:目標(biāo)/相機運動、外觀改變、目標(biāo)遮擋等),這促使了它們的聯(lián)合使用。
圖像語義分割:端到端圖像語義分割的成功促使VSS快速發(fā)展。最近的VSS基于時間連續(xù)性提升分割的精度和有效性,而不是對視頻逐幀的使用圖像語義分割。
視頻目標(biāo)檢測:為了進行視頻目標(biāo)檢測,視頻目標(biāo)檢測器使用了框或特征級的時間線索。視頻目標(biāo)檢測和(實例級)視頻分割之間存在許多關(guān)鍵技術(shù)步驟和挑戰(zhàn),如目標(biāo)建議(object proposal)生成、時間信息聚合和幀間目標(biāo)關(guān)聯(lián)。
目標(biāo)建議(object proposal)的基本思路就是在圖像上找到一些潛在的目標(biāo),而不是窮舉!然后將這些潛在的目標(biāo)輸入目標(biāo)識別模型進行分類。
3. 基于深度學(xué)習(xí)(DL)的視頻分割(VS)
3.1 基于DL的視頻目標(biāo)分割(VOS)
VOS從視頻序列中提取通用前景對象,而不考慮語義類別識別?;谌斯⑴c度,VOS分為AVOS、SVOS、IVOS。
3.1.1 自動視頻目標(biāo)分割(AVOS)
現(xiàn)代的AVOS以數(shù)據(jù)驅(qū)動的方式學(xué)習(xí)通用視頻目標(biāo)模式。
上圖是一些AVOS技術(shù)的特點,其中的Instance表示instance級或者object級的分割。?
基于DL的方法:
- 2015年,F(xiàn)ragkiadaki做出了早期的努力。他學(xué)習(xí)了一個多層感知器來對propoasl segments進行排序并推斷前景目標(biāo)。
- 2016年,Tsai提出了用于AVOS和光流估計的聯(lián)合優(yōu)化框架,該框架使用了一個預(yù)訓(xùn)練分類網(wǎng)絡(luò)的深度特征。
- 后來的方法,基于幀或光流預(yù)測初始的、像素級的前景,盡管仍需要一些后續(xù)步驟。
- 基本上,這些原始解決方案主要依賴于傳統(tǒng)的AVOS技術(shù);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力尚不充分。
基于像素實例Embedding的方法:首先生成像素級實例embeddings,然后選擇聚類為前景或者背景的代表性embeddings。最終,被采樣embeddings的label被傳播給其他embeddings。聚類和傳播是無監(jiān)督的。雖然使用了較少的注釋,但這些方法的卻是支離破碎且復(fù)雜的。
基于短時信息編碼的端到端的方法:
- 卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN,CNN用于特征提取,RNN基于特征預(yù)測)用于學(xué)習(xí)時空視覺模式。
- 雙流法(two-stream):構(gòu)建并行雙流從圖像和光流中提取特征。雙流特征融合(feature fusion)之后用于分割預(yù)測。雙流法充分利用了外觀和運動信息,代價是光流的計算以及大量需要學(xué)習(xí)的參數(shù)。
這些端到端的方法提升了精度,并且顯示了使用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。然而,它們只考慮了有限時間跨度內(nèi)的局部內(nèi)容:提取少量連續(xù)幀中的外觀和運動信息作為輸入,忽視了間隔較遠幀的關(guān)系。雖然通常使用RNN,但它們的內(nèi)部隱藏內(nèi)存(internal hidden memory)在建模長期依賴性時造成了固有的限制。
基于長時語境編碼的端到端的方法:目前領(lǐng)先的AVOS使用長時間跨度上的全局語境(global context)。
- Lu提出了基于Siamese結(jié)構(gòu)的模型:提取任意成對幀的特征,然后通過計算像素級特征相關(guān)性來獲取cross-frame context。
- 另一個同時期的方式有相似的思想,但是只是把第一幀作為參考。
- 還有一些擴展研究改進對多個幀中信息的使用、編碼空間語境、結(jié)合時間連續(xù)性,從而提升表示能力(representation power)和計算有效性。
基于無/弱監(jiān)督的方法:只有少數(shù)AVOS使用無/弱標(biāo)簽數(shù)據(jù)訓(xùn)練。
相比于VS data,更容易獲取的靜態(tài)圖像目標(biāo)分割和動態(tài)注視data被用于學(xué)習(xí)通用的視頻目標(biāo)模式。
通過探索視頻在多個粒度(granularity)上的固有屬性來學(xué)習(xí)視覺模式,例如:幀內(nèi)顯著性(saliency,)、短時視覺連貫性、長程語義對應(yīng)性、視頻級辨別性。
通過最小化目標(biāo)的運動與其語境之間的互信息,開發(fā)了一種對抗性(adversarial)語境模型來分割運動目標(biāo),且無需任何手動注釋。還可通過自舉(bootstrapping)策略和強制時間連續(xù)性進一步增強該方法。
對運動專門研究用于發(fā)現(xiàn)移動的目標(biāo),并且基于Transformer的模型使用未標(biāo)記視頻數(shù)據(jù)的自監(jiān)督流重建(self-supervised?flow reconstruction)來設(shè)計和訓(xùn)練。
實例級AVOS方法:又稱為多目標(biāo)無監(jiān)督視頻分割。這個任務(wù)更有挑戰(zhàn)性,因為它不止需要把多個前景從背景中分離出來,還要區(qū)分不同的實例目標(biāo)。目前該任務(wù)的解決辦法是從宏觀到微觀(top-down)的辦法:生成每一幀的候選目標(biāo),然后聯(lián)合不同幀的實例。
綜上,目前的實例級AVOS遵循古典的通過檢測進行跟蹤的辦法,精度和有效性仍有相當(dāng)大的提升空間。
3.1.2 半自動視頻目標(biāo)分割(SVOS)
基于DL的SVOS主要關(guān)注第一幀的掩模傳播(mask propagation)。該技術(shù)基于目標(biāo)掩模的測試時間進行分類。
基于online fine-tune的方法:基于one-shot的方法,以一種online的方法分別在每一個給定的目標(biāo)掩模上訓(xùn)練一個分割模型。Fine-tune本質(zhì)上是開發(fā)神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的能力,并且通常有兩步:
- 離線pre-train:從圖像和視頻序列中學(xué)習(xí)通用的分割特征;
- 在線fine-tune:基于監(jiān)督學(xué)習(xí)目標(biāo)專門的representation。
然而,fine-tune的方法有一些缺點:?
- 預(yù)訓(xùn)練是固定的,且沒有為之后的fine-tune優(yōu)化;
- online fine-tune的超參數(shù)通常過于專門設(shè)計,所以不具有良好的泛化能力;
- 現(xiàn)存的fine-tune都有著高運行時間(每個分割目標(biāo)多達1000次訓(xùn)練迭代)。根本原因在于這些方法編碼了所有與目標(biāo)相關(guān)的信息(例如:外觀、掩模)
為了自動有效的進行fine-tune,人們開始使用meta learning,即優(yōu)化fine-tune policy(例如:通用的模型初始化、learning rate等)或者直接更改網(wǎng)絡(luò)權(quán)重。文章來源:http://www.zghlxwxcb.cn/news/detail-786189.html
基于傳播的方法:文章來源地址http://www.zghlxwxcb.cn/news/detail-786189.html
到了這里,關(guān)于【未完待續(xù)】綜述:用于視頻分割(Video Segmentation)的深度學(xué)習(xí)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!