論文地址:L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments
論文代碼:https://github.com/ahmednull/l2cs-net
論文出處:arXiv,2022
論文單位:Otto-von-Guericke-University, Magdeburg, Germany文章來源:http://www.zghlxwxcb.cn/news/detail-632772.html
摘要
- 人類的注視(gaze)是在人機交互和虛擬現(xiàn)實等各種應(yīng)用中使用的關(guān)鍵線索。
- 近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法在預(yù)測凝視方向方面取得了顯著進展。
- 然而,由于眼睛外觀的獨特性、光照條件、頭部姿勢和凝視方向的多樣性,在野外估計凝視仍然是一個具有挑戰(zhàn)性的問題。
- 在本文中,我們提出了一個魯棒的基于 CNN 的模型來預(yù)測無約束設(shè)置下的凝視。
- 我們提出對每個凝視角度分別進行回歸,以提高每角度的預(yù)測精度,從而提高整體凝視性能。
- 此外,我們使用兩個相同的損失,每個角度一個,以改善網(wǎng)絡(luò)的學(xué)習(xí)和提高其泛化。
- 我們用無約束設(shè)置收集的兩個流行數(shù)據(jù)集來評估我們的模型。我們提出的模型在MPIIGaze 和Gaze360數(shù)據(jù)集上分別達到了3.92?和10.41?的精度。
1. 簡介
- 眼睛注視(eye gaze) 是在各種應(yīng)用中使用的基本線索之一。
- 它表示用戶在人機交互和開放對話系統(tǒng)中的參與程度。此外,它還被用于增強現(xiàn)實,用于預(yù)測用戶的注意力,從而提高設(shè)備的感知能力,降低功耗。
- 因此,研究人員開發(fā)了多種方法和技術(shù)來準確估計人類的凝視。這些方法分為兩類: 基于模型的方法和基于外觀的方法。
- 基于模型的方法通常需要專用硬件,這使得它們難以在不受約束的環(huán)境(unconstrained environment)中使用。
- 基于外觀的方法將人類的視線直接從廉價的現(xiàn)成相機拍攝的圖像中還原出來,使它們很容易在不受約束的設(shè)置下在不同的位置生成。
- 目前,基于CNN的方法是基于外觀的方法是最常用的凝視估計方法,因為它提供了更好的凝視性能。
- 大部分的相關(guān)工作專注于開發(fā)新穎的基于CNN的網(wǎng)絡(luò),主要由流行的骨干(如VGG, ResNet-18 , ResNet-50等) 組成,來提取凝視特征,最終輸出凝視方向。
- 這些網(wǎng)絡(luò)的輸入可以是單個流 (例如:如面部或眼睛圖像)或多個流(如面部和眼睛圖像)。
- 用于注視估計任務(wù)的最常見的損失函數(shù)是均方損失或L2損失。
- 盡管基于CNN的方法提高了注視精度,但它們?nèi)狈︳敯粜院头夯?,特別是在無約束環(huán)境下。
- 本文介紹了一種新的估計方法來在RGB圖像中估計3D凝視角度,使用一種 multi-loss 的方法。
- 我們建議使用兩個全連接層獨立回歸每個凝視角度(偏航,俯仰),以提高每個角度的預(yù)測精度。
- 此外,我們對每個凝視角度使用兩個單獨的損失函數(shù)。每一種損失都由注視二值分類和回歸組成。
- 最后,這兩種損失通過網(wǎng)絡(luò)反向傳播,精確微調(diào)網(wǎng)絡(luò)權(quán)重,提高網(wǎng)絡(luò)泛化。
- 我們通過使用softmax層和交叉熵損失(cross-entropy loss)來執(zhí)行g(shù)aze bin分類,以便網(wǎng)絡(luò)以魯棒的方式估計注視角的鄰域。
- 基于所提出的損失函數(shù)和softmax層 (L2 loss+ cross-entropy loss+ softmax層),我們提出了一種新的網(wǎng)絡(luò)(L2CS-Net)來預(yù)測無約束設(shè)置下的3D凝視向量。
- 最后,我們在兩個流行的數(shù)據(jù)集MPIIGaze和Gaze360上評估了我們的網(wǎng)絡(luò)的魯棒性。L2CS-Net在MPIIGaze和Gaze360數(shù)據(jù)集上實現(xiàn)了SOAT的性能。
2. Related Work
- 根據(jù)文獻,基于外觀的凝視估計可以分為傳統(tǒng)的和基于cnn的方法。
- 傳統(tǒng)的凝視估計方法使用回歸函數(shù)來創(chuàng)建一個特定于人類凝視的映射函數(shù),例如自適應(yīng)線性回歸和高斯過程回歸。這些方法在受限設(shè)置(例如,受試者特定和固定的頭部姿勢和照明)中顯示出合理的準確性,然而,在非受限設(shè)置中測試時,它們顯著降低。
- 最近,研究人員對基于cnn的凝視估計方法更感興趣,因為它們可以在圖像和凝視之間建立高度非線性的映射函數(shù)。
3. METHOD
3.1 Proposed loss function
- 大多數(shù)基于CNN的注視估計模型將3D注視預(yù)測為在球坐標下的注視方向角(偏航角、俯仰角)。
此外,他們采用均方誤差(L2損失)來懲罰他們的網(wǎng)絡(luò)。 - 我們建議對每個凝視角度使用兩個相同的損失。每一損失都包含交叉熵損失和均方誤差。
- 與直接預(yù)測連續(xù)凝視角度不同,我們使用了一個帶有交叉熵的softmax層來預(yù)測 binned gaze classification。
- 然后,我們估計凝視分類輸出的期望以細化預(yù)測。
- 最后,我們在輸出中加入均方誤差來改進凝視預(yù)測。
- 使用L2與Softmax一起可以極大地靈活地調(diào)整非線性Softmax層。
- 交叉熵損失定義為:
- 均方誤差定義為:
- 我們提出的每個凝視角度的損失是均方誤差和交叉熵損失的線性組合,定義為:
其中CLS為綜合損失,p為預(yù)測值,y為基真值,β為回歸系數(shù)。在第4節(jié)的實驗中,我們改變均方損失的權(quán)重,以獲得最佳的注視性能。 - 據(jù)我們所知,所有使用基于CNN的方法估計凝視的相關(guān)工作都沒有考慮其技術(shù)中的分類和回歸聯(lián)合損失。
3.2 L2CS-Net 結(jié)構(gòu)
- 我們提出了一個簡單的網(wǎng)絡(luò)架構(gòu)(L2CS-Net)基于所提出的分類和回歸損失。
- 它將人臉圖像作為輸入,并將其作為主干饋送到ResNet-50,從圖像中提取空間凝視特征。
- 與之前大多數(shù)將兩個凝視角度在一個全連接層中一起回歸的工作相反,我們使用兩個全連接層分別預(yù)測每個角度。
- 這兩個全連接層共享相同的卷積層backbone。
- 此外,我們還使用了兩個損失函數(shù),分別對應(yīng)于每個凝視角度(偏航、俯仰)。
- 使用這種方法將改善網(wǎng)絡(luò)學(xué)習(xí),因為它有兩個信號在網(wǎng)絡(luò)中反向傳播。
- 對于來自全連接層的每個輸出,我們首先使用softmax層將網(wǎng)絡(luò)輸出 logits 轉(zhuǎn)換為概率分布。
- 然后,應(yīng)用交叉熵損失來計算輸出概率與 target bin 標簽之間的分類損失。
- 接下來,我們計算概率分布的期望,以獲得細粒度的凝視預(yù)測。
- 最后,我們計算該預(yù)測的均方誤差并將其添加到分類損失中。
- L2CS-Net的詳細體系結(jié)構(gòu)如圖1所示。
3.3 數(shù)據(jù)集
-
Gaze360:
Gaze360提供了360度范圍內(nèi)最寬的 3D gaze 注釋。
它包含238名不同年齡、性別和種族的研究對象。
它的圖像是使用一個 Ladybug多攝像頭系統(tǒng)在不同的室內(nèi)和室外環(huán)境設(shè)置(如照明條件和背景)中拍攝的。 -
MPIIGaze:
MPIIGaze提供了15名受試者在幾個月的日常生活中拍攝的213.659張圖像。
因此,它包含具有不同背景,時間和照明的圖像,使其適合于無約束的凝視估計。
它是通過軟件收集的,該軟件要求參與者觀察筆記本電腦上隨機移動的點。
3.4 評價指標
-
gaze angular error (?) :計算公式為:
其中,ground-truth gaze direction g∈R3.
predicted gaze vector g^ ∈R3.
4. 實驗
4.1 實驗結(jié)果
文章來源地址http://www.zghlxwxcb.cn/news/detail-632772.html
到了這里,關(guān)于L2CS-Net: 3D gaze estimation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!