国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

L2CS-Net: 3D gaze estimation

2年前作者：Airs_Gao分類：Toy博客閱讀(23)違法舉報

這篇具有很好參考價值的文章主要介紹了L2CS-Net: 3D gaze estimation。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

論文地址：L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments
論文代碼：https://github.com/ahmednull/l2cs-net
論文出處：arXiv，2022
論文單位：Otto-von-Guericke-University, Magdeburg, Germany

摘要

人類的注視（gaze）是在人機交互和虛擬現(xiàn)實等各種應(yīng)用中使用的關(guān)鍵線索。
近年來，卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法在預(yù)測凝視方向方面取得了顯著進展。
然而，由于眼睛外觀的獨特性、光照條件、頭部姿勢和凝視方向的多樣性，在野外估計凝視仍然是一個具有挑戰(zhàn)性的問題。
在本文中，我們提出了一個魯棒的基于 CNN 的模型來預(yù)測無約束設(shè)置下的凝視。
我們提出對每個凝視角度分別進行回歸，以提高每角度的預(yù)測精度，從而提高整體凝視性能。
此外，我們使用兩個相同的損失，每個角度一個，以改善網(wǎng)絡(luò)的學(xué)習(xí)和提高其泛化。
我們用無約束設(shè)置收集的兩個流行數(shù)據(jù)集來評估我們的模型。我們提出的模型在MPIIGaze 和Gaze360數(shù)據(jù)集上分別達到了3.92?和10.41?的精度。

1. 簡介

眼睛注視（eye gaze） 是在各種應(yīng)用中使用的基本線索之一。
它表示用戶在人機交互和開放對話系統(tǒng)中的參與程度。此外，它還被用于增強現(xiàn)實，用于預(yù)測用戶的注意力，從而提高設(shè)備的感知能力，降低功耗。
因此，研究人員開發(fā)了多種方法和技術(shù)來準確估計人類的凝視。這些方法分為兩類: 基于模型的方法和基于外觀的方法。
基于模型的方法通常需要專用硬件，這使得它們難以在不受約束的環(huán)境（unconstrained environment）中使用。
基于外觀的方法將人類的視線直接從廉價的現(xiàn)成相機拍攝的圖像中還原出來，使它們很容易在不受約束的設(shè)置下在不同的位置生成。
目前，基于CNN的方法是基于外觀的方法是最常用的凝視估計方法，因為它提供了更好的凝視性能。
大部分的相關(guān)工作專注于開發(fā)新穎的基于CNN的網(wǎng)絡(luò)，主要由流行的骨干(如VGG， ResNet-18 ， ResNet-50等) 組成，來提取凝視特征，最終輸出凝視方向。
這些網(wǎng)絡(luò)的輸入可以是單個流 (例如:如面部或眼睛圖像)或多個流(如面部和眼睛圖像)。
用于注視估計任務(wù)的最常見的損失函數(shù)是均方損失或L2損失。
盡管基于CNN的方法提高了注視精度，但它們?nèi)狈︳敯粜院头夯?，特別是在無約束環(huán)境下。
本文介紹了一種新的估計方法來在RGB圖像中估計3D凝視角度，使用一種 multi-loss 的方法。
我們建議使用兩個全連接層獨立回歸每個凝視角度(偏航，俯仰)，以提高每個角度的預(yù)測精度。
此外，我們對每個凝視角度使用兩個單獨的損失函數(shù)。每一種損失都由注視二值分類和回歸組成。
最后，這兩種損失通過網(wǎng)絡(luò)反向傳播，精確微調(diào)網(wǎng)絡(luò)權(quán)重，提高網(wǎng)絡(luò)泛化。
我們通過使用softmax層和交叉熵損失（cross-entropy loss）來執(zhí)行g(shù)aze bin分類，以便網(wǎng)絡(luò)以魯棒的方式估計注視角的鄰域。
基于所提出的損失函數(shù)和softmax層 (L2 loss+ cross-entropy loss+ softmax層)，我們提出了一種新的網(wǎng)絡(luò)(L2CS-Net)來預(yù)測無約束設(shè)置下的3D凝視向量。
最后，我們在兩個流行的數(shù)據(jù)集MPIIGaze和Gaze360上評估了我們的網(wǎng)絡(luò)的魯棒性。L2CS-Net在MPIIGaze和Gaze360數(shù)據(jù)集上實現(xiàn)了SOAT的性能。

2. Related Work

根據(jù)文獻，基于外觀的凝視估計可以分為傳統(tǒng)的和基于cnn的方法。
傳統(tǒng)的凝視估計方法使用回歸函數(shù)來創(chuàng)建一個特定于人類凝視的映射函數(shù)，例如自適應(yīng)線性回歸和高斯過程回歸。這些方法在受限設(shè)置(例如，受試者特定和固定的頭部姿勢和照明)中顯示出合理的準確性，然而，在非受限設(shè)置中測試時，它們顯著降低。
最近，研究人員對基于cnn的凝視估計方法更感興趣，因為它們可以在圖像和凝視之間建立高度非線性的映射函數(shù)。

3. METHOD

3.1 Proposed loss function

大多數(shù)基于CNN的注視估計模型將3D注視預(yù)測為在球坐標下的注視方向角(偏航角、俯仰角)。
此外，他們采用均方誤差(L2損失)來懲罰他們的網(wǎng)絡(luò)。
我們建議對每個凝視角度使用兩個相同的損失。每一損失都包含交叉熵損失和均方誤差。
與直接預(yù)測連續(xù)凝視角度不同，我們使用了一個帶有交叉熵的softmax層來預(yù)測 binned gaze classification。
然后，我們估計凝視分類輸出的期望以細化預(yù)測。
最后，我們在輸出中加入均方誤差來改進凝視預(yù)測。
使用L2與Softmax一起可以極大地靈活地調(diào)整非線性Softmax層。
交叉熵損失定義為:
均方誤差定義為：
我們提出的每個凝視角度的損失是均方誤差和交叉熵損失的線性組合，定義為：

其中CLS為綜合損失，p為預(yù)測值，y為基真值，β為回歸系數(shù)。在第4節(jié)的實驗中，我們改變均方損失的權(quán)重，以獲得最佳的注視性能。
據(jù)我們所知，所有使用基于CNN的方法估計凝視的相關(guān)工作都沒有考慮其技術(shù)中的分類和回歸聯(lián)合損失。

3.2 L2CS-Net 結(jié)構(gòu)

我們提出了一個簡單的網(wǎng)絡(luò)架構(gòu)(L2CS-Net)基于所提出的分類和回歸損失。
它將人臉圖像作為輸入，并將其作為主干饋送到ResNet-50，從圖像中提取空間凝視特征。
與之前大多數(shù)將兩個凝視角度在一個全連接層中一起回歸的工作相反，我們使用兩個全連接層分別預(yù)測每個角度。
這兩個全連接層共享相同的卷積層backbone。
此外，我們還使用了兩個損失函數(shù)，分別對應(yīng)于每個凝視角度(偏航、俯仰)。
使用這種方法將改善網(wǎng)絡(luò)學(xué)習(xí)，因為它有兩個信號在網(wǎng)絡(luò)中反向傳播。
對于來自全連接層的每個輸出，我們首先使用softmax層將網(wǎng)絡(luò)輸出 logits 轉(zhuǎn)換為概率分布。
然后，應(yīng)用交叉熵損失來計算輸出概率與 target bin 標簽之間的分類損失。
接下來，我們計算概率分布的期望，以獲得細粒度的凝視預(yù)測。
最后，我們計算該預(yù)測的均方誤差并將其添加到分類損失中。
L2CS-Net的詳細體系結(jié)構(gòu)如圖1所示。

3.3 數(shù)據(jù)集

Gaze360：
Gaze360提供了360度范圍內(nèi)最寬的 3D gaze 注釋。
它包含238名不同年齡、性別和種族的研究對象。
它的圖像是使用一個 Ladybug多攝像頭系統(tǒng)在不同的室內(nèi)和室外環(huán)境設(shè)置(如照明條件和背景)中拍攝的。
MPIIGaze：
MPIIGaze提供了15名受試者在幾個月的日常生活中拍攝的213.659張圖像。
因此，它包含具有不同背景，時間和照明的圖像，使其適合于無約束的凝視估計。
它是通過軟件收集的，該軟件要求參與者觀察筆記本電腦上隨機移動的點。

3.4 評價指標

gaze angular error (?) ：計算公式為：

其中，ground-truth gaze direction g∈R³.
predicted gaze vector g^ ∈R³.

4. 實驗

4.1 實驗結(jié)果

L2CS-Net: 3D gaze estimation,gaze estimation

文章來源地址http://www.zghlxwxcb.cn/news/detail-632772.html

到了這里，關(guān)于L2CS-Net: 3D gaze estimation的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

RDIFramework.NET CS敏捷開發(fā)框架 V6.0發(fā)布(支持.NET6+、Framework雙引擎，全網(wǎng)唯一)
全新RDIFramework.NET V6.0 CS敏捷開發(fā)框架發(fā)布，全網(wǎng)唯一支持.NET6+，F(xiàn)ramework雙引擎，降低開發(fā)成本，提高產(chǎn)品質(zhì)量，提升用戶體驗與開發(fā)團隊穩(wěn)定性，做軟件就選RDIFramework.NET開發(fā)框架。 RDIFramework.NET C/S敏捷開發(fā)框架，是我司重磅推出的基于.NET的快速信息化系統(tǒng)開發(fā)、整合框架，
2024年02月15日
瀏覽(32)
ASP.NET基于cs的電子郵件簡單收發(fā)系統(tǒng)設(shè)計與實現(xiàn)(源代碼+論文)
電子郵件作為互聯(lián)網(wǎng)中交換信息廣泛的通信工具之一，如今都已被廣大用戶接受。早期的電子郵件只是從一個計算機終端向另外一個計算機終端傳送文本信息，而現(xiàn)在的電子郵件不僅可以發(fā)送文本信息，還可以傳送聲音、圖片、文檔等多種信息。很多郵件郵件客戶端軟件不斷
2024年02月08日
瀏覽(21)
利用DETR模型實現(xiàn)Gaze Tracking
近年來，計算機視覺領(lǐng)域取得了許多令人矚目的突破，其中一個重要的研究方向是注視追蹤（Gaze Tracking）。注視追蹤是指監(jiān)測和預(yù)測人眼的注視點位置，能夠為人機交互、認知研究和智能駕駛等領(lǐng)域提供有價值的信息。在本文中，我們將探討如何利用DETR（Detection Transformer）
2024年02月12日
瀏覽(16)
【復(fù)現(xiàn)論文】Looking here or there? Gaze Following in 360-Degree Images
論文：Looking here or there? Gaze Following in 360-Degree Images 論文鏈接：Looking here or there? Gaze Following in 360-Degree Images 復(fù)現(xiàn)github鏈接：Rao2000/gazefollow360: The paper “Looking here or there? Gaze Following in 360-Degree Images” implementing with Pytorch (github.com) 知乎鏈接: link 掘金鏈接:link 在本文中，研究了一
2023年04月17日
瀏覽(69)
MVX-net3D算法筆記
本文為個人學(xué)習(xí)過程中所記錄筆記，便于梳理思路和后續(xù)查看用，如有錯誤，感謝批評指正！參考： paper： code： ??采用Pointfusion 和VoxelFusion實現(xiàn)了相機和點云的早融合。在KITTI數(shù)據(jù)集上包括5類別的鳥瞰數(shù)據(jù)和3D檢測數(shù)據(jù)中獲得前2名的數(shù)據(jù)。 ??目前做3D檢測有常見的兩種
2024年02月03日
瀏覽(19)
3D點云分割系列5：RandLA-Net：3D點云的實時語義分割，隨機降采樣的重生
《RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds》發(fā)布于CVPR 2020。在自動駕駛等領(lǐng)域，高效的分割網(wǎng)絡(luò)是目前最基本和最關(guān)鍵的研究方向。目前存在的一些點云處理方法包括PointNet、PointNet++、PointCNN、KPConv等方法，或多或少都存在效率不高或是特征采樣不足的情況，
2024年02月04日
瀏覽(19)
EPT-Net：用于3D醫(yī)學(xué)圖像分割的邊緣感知轉(zhuǎn)換器
IEEE TRANSACTIONS ON MEDICAL IMAGING, VOL. 42, NO. 11, NOVEMBER 2023 卷積運算的內(nèi)在局部性在建模長程依賴性方面存在局限性。盡管為序列到序列全局預(yù)測而設(shè)計的Transformer就是為了解決這個問題而誕生的，但由于底層細節(jié)特征不足，它可能會導(dǎo)致定位能力有限。此外，低級特征具有豐富
2024年02月04日
瀏覽(32)
[論文閱讀]MVX-Net——基于3D目標檢測的多模態(tài)VoxelNet
MVX-Net: Multimodal VoxelNet for 3D Object Detection 基于3D目標檢測的多模態(tài)VoxelNet 論文網(wǎng)址：MVX-Net 這篇論文主要提出了兩種多模態(tài)融合方法,PointFusion和VoxelFusion,用于將RGB圖像特征與點云特征結(jié)合,從而提高3D目標檢測的性能。論文的主要內(nèi)容和貢獻總結(jié)如下: 提出了兩種簡單有效的多模
2024年02月07日
瀏覽(137)
【論文筆記】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception
原文鏈接：https://arxiv.org/abs/2304.00670 ??本文提出兩階段融合方法CRN，能使用相機和雷達生成語義豐富且位置精確的BEV特征。具體來說，首先將圖像透視特征轉(zhuǎn)換到BEV下，該步驟依賴雷達，稱為雷達輔助的視圖變換（RVT）。由于轉(zhuǎn)換得到的BEV特征并非完全精確，接下來的多模
2024年02月03日
瀏覽(46)
文獻速遞：生成對抗網(wǎng)絡(luò)醫(yī)學(xué)影像中的應(yīng)用——3DGAUnet：一種帶有基于3D U-Net的生成器的3D生成對抗網(wǎng)絡(luò)
給大家分享文獻的主題是生成對抗網(wǎng)絡(luò)（Generative adversarial networks, GANs）在醫(yī)學(xué)影像中的應(yīng)用。文獻的研究內(nèi)容包括同模態(tài)影像生成、跨模態(tài)影像生成、GAN在分類和分割方面的應(yīng)用等。生成對抗網(wǎng)絡(luò)與其他方法相比展示出了優(yōu)越的數(shù)據(jù)生成能力，使它們在醫(yī)學(xué)圖像應(yīng)用中廣受歡
2024年02月02日
瀏覽(24)