一、論文簡述
1. 第一作者:Xiuchao Sui、Shaohua Li
2. 發(fā)表年份:2021
3. 發(fā)表期刊:arxiv
4. 關(guān)鍵詞:光流、Transformer、自注意力、交叉注意力、相關(guān)體
5. 探索動機:由于卷積的局部性和剛性權(quán)重,有限的上下文信息被納入到像素特征中,并且計算出的相關(guān)性具有很高的隨機性,以至于大多數(shù)高相關(guān)性值都是虛假匹配,因此難以處理帶有運動模糊的大位移。
- Although newest methods are very accurate on benchmark data, under certain conditions, such as large displacements with motion blur , flow errors could still be large.
- The current paradigm computes the pairwise pixel similarity as the dot product of two convolutional feature vectors. Due to the locality and rigid weights of convolution, limited contextual information is incorporated into pixel features, and the computed correlations suffer from a high level of randomness, such that most of the high correlation values are spurious matches. Noises in the correlations increase with noises in the input images, such as loss of texture, lighting variations and motion blur. Naturally, noisy correlations may lead to unsuccessful image matching and inaccurate output flow. This problem becomes more prominent when there are large displacements. Reducing noisy correlations can lead to substantial improvements of flow estimation.
6. 工作目標:通過ViT解決上述問題。
An important advantage of Vision Transformers (ViTs) over convolution is that, transformer features better encode global context, by attending to pixels with dynamic weights based on their contents. For the optical flow task, useful information can propagate from clear areas to blurry areas, or from non-occluded areas to occluded areas, to improve the flow estimation of the latter. A recent study suggests that, ViTs are low-pass filters that do spatial smoothing of feature maps. Intuitively, after transformer self-attention, similar feature vectors take weighted sums of each other, smoothing out irregularities and high-frequency noises.
7. 核心思想:提出了“交叉注意力光流變換器”(CRAFT),一種新的光流估計結(jié)構(gòu)。CRAFT采用了兩個新穎的組件,簡化了相關(guān)體的計算。此外,為了測試不同模型對大型運動的魯棒性,設(shè)計了一種圖像移動攻擊,通過移動輸入圖像來生成大型人工運動。
- A semantic smoothing transformer layer fuses the features of one image, making them more global and semantically smoother.
- A crossframe attention layer replaces the dot-product operator for correlation computation. It provides an additional level of feature filtering through the Query and Key projections, so that the computed correlations are more accurate.
8. 實驗結(jié)果:SOTA
- On Sintel (Final) and KITTI(foreground) benchmarks, CRAFT has achieved new stateof-the-art (SOTA) performance.
- In addition, to test the robustness of different models on large motions, we designed an image shifting attack that shifts input images to generate large artificial motions. As the motion magnitude increases, CRAFT performs robustly, while two representative methods, RAFT and GMA, deteriorate severely.
9.論文下載:
https://openaccess.thecvf.com/content/CVPR2022/papers/Sui_CRAFT_Cross-Attentional_Flow_Transformer_for_Robust_Optical_Flow_CVPR_2022_paper.pdf
https://github.com/askerlee/craft
二、實現(xiàn)過程
1. CRAFT概述
網(wǎng)絡(luò)繼承了RAFT的管道。 主要貢獻是通過兩個新的組件來恢復(fù)相關(guān)體計算部分(虛線綠色矩形):幀2特征上的語義平滑轉(zhuǎn)換器和跨幀注意力層來計算相關(guān)體,兩個新穎的組件被突出顯示為帶紅色邊框的框。 這兩個組件有助于抑制相關(guān)體中的虛假相關(guān)。底部的GMA模塊是全局運動聚合模塊。
2. 語義平滑轉(zhuǎn)換器
給定兩幅連續(xù)的圖像幀1和幀2作為輸入,光流管道的第一步是使用卷積特征網(wǎng)絡(luò)提取幀特征。為了增強具有更好全局上下文的幀特征,使用語義平滑變換器(簡稱SSTrans)對幀2特征進行變換。為了更好地適應(yīng)不同的特征,采用擴展注意力作為SSTrans,而不是常用的多頭注意力(MHA)。 擴展注意力是一種具有更高的容量的混合系統(tǒng),在圖像分割任務(wù)中顯示出優(yōu)于MHA的優(yōu)勢。
擴展的注意力(EA)層由N個模式(子轉(zhuǎn)換器)組成,計算N個特征集,這些特征集使用動態(tài)模式注意力聚集成一個集合:
?式中B(k)為模式注意力得分,模式注意力概率G為所有B(k)沿模式維數(shù)的softmax。輸出特征EA(X)是所有模式特征的線性組合。為了更好地保留幀的原始特征,我們添加了一個可學習的權(quán)重為w1的加權(quán)跳躍連接:
為了施加空間偏置,我們發(fā)現(xiàn)傳統(tǒng)的位置嵌入不會形成有意義的偏置,而是使用相對位置偏置。偏置是一個矩陣B∈(2r+1)×(2r+1),添加到計算出的注意力,其中r是指定偏置局部范圍的半徑。
具體地說,假設(shè)將原來的注意力矩陣重塑為一個四維張量A∈H×W×H×W,其中H、W是幀特征的高度和寬度。 對于i,j處的每個像素,A(i,j)是一個矩陣,指定像素(i,j)與同一幀中的所有像素之間的注意力權(quán)重。 將相對位置偏置b添加到像素(i,j)的半徑r的鄰域:
在實現(xiàn)中,選擇模式數(shù)為4,相對位置偏置的半徑r為7。下圖可視化CRAFT在Sintel訓(xùn)練時的相對位置偏置。觀察到兩個有趣的模式:?
- 最小的偏置值在2左右,位于(0,0)處,這意味著,當計算像素(i,j)的新特征時,該偏置項將使其自身特征的權(quán)重減少2。如果沒有這一項,像素(i, j)對自身的注意力權(quán)重可能會主導(dǎo)其他像素的權(quán)重,因為特征向量與自身最相似。這一項減少了一個像素的舊特征在組合輸出特征中的比例,有效地鼓勵了來自其他像素的新信息的流入。
- 最大的權(quán)重在距離中心像素2 ~ 3像素處,這意味著這些周圍像素的特征最常被用來補充中心像素的特征。
這兩個觀察結(jié)果在下圖中得到了證實。下圖為查詢點(紅色矩形)和同一圖像中的所有像素之間SS轉(zhuǎn)換器的自注意力關(guān)注的熱圖。最密集的區(qū)域是查詢點注意力最高的地方,并提取特征來豐富自己。將位置偏置設(shè)置為0會導(dǎo)致性能下降。
在兩個幀的特征上應(yīng)用變換器是很有誘惑力的。 然而,在實驗中,這樣做會導(dǎo)致性能下降。 假設(shè)是基于一個普遍的信念,即圖像匹配嚴重依賴于局部和結(jié)構(gòu)的高頻(HF)特征。 同時,大量的高頻噪聲會污染信息特征,阻礙匹配。 SSTrans作為一種低通濾波器來抑制短波噪聲,但同時可以減少HF特征而增強低頻(LF)特征。 因此,該模型學習在幀2中的LF和HF分量之間進行折衷,以與幀1匹配。在兩個幀上應(yīng)用SSTrans后,兩個幀都包含較少的HF和較多的LF分量。 對它們進行匹配可能會產(chǎn)生許多虛假的相關(guān)關(guān)系,并損害光流的準確性。 這種直覺在下圖中得到了證實。在Sintel (Final pass)測試集上幀2和第1幀上查詢點之間的相關(guān)性。圖像被裁剪。標準CRAFT設(shè)置(“單個SSTrans”)具有最小的噪聲相關(guān)性?!半pSSTrans”產(chǎn)生了更多的噪聲相關(guān)性。
3.?相關(guān)體的跨幀注意力
在目前的范例中,相關(guān)體是跨幀像素匹配的基礎(chǔ)。計算出幀特征f1和f2后,將相關(guān)體計算為4D張量∈H×W×H×W。傳統(tǒng)上,相關(guān)體計算為f1和f2的成對點積:
從概念上講,相關(guān)體本質(zhì)上是變換器中沒有通過查詢和鍵投影進行特征變換的交叉注意力。查詢/鍵投影可以被視為特征過濾器,這些特征過濾器為相關(guān)選出最有信息的特征。此外,為了獲得不同的相關(guān)性,可以使用多個查詢和鍵投影,就像擴展注意力(EA)一樣。在具有多個通道的VCN中追求類似的多方面的相關(guān)。 這些好處促使本文用一個簡化的EA來取代點積:
其中Qk、Kk分別是第k個查詢和鍵投影;Ck(i,j,m,n)是用第k個模式計算的相關(guān)。Softmax算子沿k個模態(tài)取,并聚合k個相關(guān)。通過去除值投影和前饋網(wǎng)絡(luò),這里的EA被簡化了。Qk和Kk的權(quán)重共享,因為兩個幀之間的相關(guān)性是對稱的。
全局相關(guān)歸一化。有時會在相關(guān)體中出現(xiàn)極值,這可能會擾亂像素匹配。為了匹配一個像素,直觀地說,候選像素的相關(guān)的相對順序比絕對相關(guān)值更重要。 基于此,對整個相關(guān)體執(zhí)行層歸一化,以穩(wěn)定相關(guān)。 從經(jīng)驗上看,這導(dǎo)致性能略有改善。
4. 損失函數(shù)
與RAFT相同,采用加權(quán)的多重迭代L1損失。
5. 實驗
5.1. 實現(xiàn)細節(jié)
通過熱圖評價注意力權(quán)重和相關(guān)體的相關(guān)性很有說服性。此外還設(shè)計了Shifting Attack對位移進行大移動,以證明網(wǎng)絡(luò)的優(yōu)越性。
5.2. 與先進技術(shù)的比較
5.3. 消融實驗文章來源:http://www.zghlxwxcb.cn/news/detail-437370.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-437370.html
到了這里,關(guān)于【論文簡述】Cross-Attentional Flow Transformer for Robust Optical Flow(CVPR 2022)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!