国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

這篇具有很好參考價值的文章主要介紹了MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

BlazePose: On-device Real-time Body Pose tracking

BlazePose:設(shè)備上實時人體姿態(tài)跟蹤

論文地址:[2006.10204] BlazePose: On-device Real-time Body Pose tracking (arxiv.org)

主要貢獻(xiàn):

(1)提出一個新穎的身體姿態(tài)跟蹤解決方案和一個輕量級的身體姿態(tài)估計神經(jīng)網(wǎng)絡(luò),同時使用了熱圖(heatmap)和對關(guān)鍵點坐標(biāo)的回歸。

(2)基于堆疊沙漏結(jié)構(gòu)(the stacked hourglass architecture),并使用編碼器-解碼器網(wǎng)絡(luò)架構(gòu)來預(yù)測所有關(guān)節(jié)的熱圖,然后使用另一個編碼器直接回歸到所有關(guān)節(jié)的坐標(biāo)。

(3)在推斷過程中可以丟棄熱圖分支,使其足夠輕便,可以在手機(jī)上運行,F(xiàn)PS達(dá)到30+。

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

目錄

一、摘要

二、介紹

三、模型架構(gòu)和管道(Pipeline)設(shè)計

(1)推理管道

(2)人員探測器

(3)Topology

(4)數(shù)據(jù)集

(5)神經(jīng)網(wǎng)絡(luò)架構(gòu)

(6)對齊和遮擋增強

四、實驗

五、應(yīng)用


一、摘要

我們提出了BlazePose,一種用于人體姿態(tài)估計的輕量級卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),用于在移動設(shè)備上進(jìn)行實時推理。在推理過程中,該網(wǎng)絡(luò)為單個人生成33個身體關(guān)鍵點,并在Pixel2手機(jī)上以每秒30幀以上的速度運行。這使得它特別適合實時用例圖,如健身跟蹤和手語識別。我們的主要貢獻(xiàn)包括一個新穎的身體姿態(tài)跟蹤解決方案和一個輕量級的身體姿態(tài)估計神經(jīng)網(wǎng)絡(luò),它同時使用了熱圖(heatmap)和對關(guān)鍵點坐標(biāo)的回歸。

二、介紹

從圖像或視頻中進(jìn)行人體姿態(tài)估計在各種應(yīng)用中起著核心作用,如健康跟蹤、手語識別和手勢控制。這項任務(wù)是具有挑戰(zhàn)性的,由于各種各樣的姿勢,許多自由度和遮擋。最近的工作《Deephigh-resolution representation learning for human pose estimation》《Pifpaf:Composite fields for human pose estimation》在位姿估計方面取得了顯著的進(jìn)展。常用的方法是為每個關(guān)節(jié)生成熱圖,同時為每個坐標(biāo)細(xì)化偏移量。雖然這種熱圖的選擇以最小的開銷擴(kuò)展到多個人,但它使單個人的模型比適用于手機(jī)上的實時推斷大得多。在本文中,我們解決了這個特殊的用例,并展示了模型在幾乎沒有質(zhì)量下降的情況下的顯著加速。

與基于熱圖的技術(shù)相比,基于回歸的方法雖然計算量較小,可擴(kuò)展性強,但試圖預(yù)測平均坐標(biāo)值,往往無法解決潛在的歧義。《Stacked hour-glass networks for human pose estimation》的研究表明,堆疊沙漏結(jié)構(gòu)(the stacked hourglass architecture)可以顯著提高預(yù)測的質(zhì)量,即使參數(shù)數(shù)量較少。在我們的工作中擴(kuò)展這個想法,并使用編碼器-解碼器網(wǎng)絡(luò)架構(gòu)來預(yù)測所有關(guān)節(jié)的熱圖,然后使用另一個編碼器直接回歸到所有關(guān)節(jié)的坐標(biāo)。我們工作背后的關(guān)鍵見解是,在推斷過程中可以丟棄熱圖分支,使其足夠輕便,可以在手機(jī)上運行。

三、模型架構(gòu)和管道(Pipeline)設(shè)計

(1)推理管道

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

圖1 推理管道

在推理過程中,我們使用了一個檢測器跟蹤器setup(見圖1),它在各種任務(wù)上表現(xiàn)出優(yōu)異的實時性能,例如 hand landmark pre-diction《On-device, real-timehand tracking with mediapipe》AND dense face landmark prediction《Real-time facial surface ge-ometry from monocular video on mobile gpus》。我們的管道由一個輕量級的身體姿態(tài)探測器和一個姿態(tài)跟蹤器網(wǎng)絡(luò)組成。跟蹤器預(yù)測關(guān)鍵點坐標(biāo)、當(dāng)前幀中人物的存在以及當(dāng)前幀的細(xì)化感興趣區(qū)域。當(dāng)跟蹤器指示沒有人類在場時,我們在下一幀重新運行檢測器網(wǎng)絡(luò)。

(2)人員探測器

大多數(shù)現(xiàn)代目標(biāo)檢測解決方案的最后一個后處理步驟都依賴于非極大值抑制( NMS )算法。這對于自由度較少的剛性物體效果較好。然而,該算法適用于像人類那樣包含高度關(guān)節(jié)化姿態(tài)的場景,例如人們揮手或擁抱。這是因為對于NMS算法,多個模糊框滿足交并比( IoU )閾值。為了克服這一限制,我們專注于檢測一個相對僵硬的身體部分,如人體面部或軀干的邊界框。我們觀察到,在很多情況下,神經(jīng)網(wǎng)絡(luò)關(guān)于軀干位置的最強信號是人的面部(因為它具有高對比度的特征和較少的外觀變化)。為了使這樣的人物檢測器快速輕量級,我們使強而有效的AR(增強現(xiàn)實)應(yīng)用程序,假設(shè)在我們的單人用例中,人物的頭部應(yīng)該始終可見。因此,我們使用快速的設(shè)備上人臉檢測器《Blaze-face: Sub-millisecond neural face detection on mobile gpus》作為人員檢測器的代理。

?圖2 維特魯威人通過我們的檢測器與人臉檢測邊界框進(jìn)行對齊

這個人臉檢測器預(yù)測額外的個人特異性對齊參數(shù):人的臀部之間的中點,環(huán)繞整個人的圓的大小,以及傾斜的(兩肩中點和臀中點連線之間的夾角)。

?(3)Topology

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

圖3 33個關(guān)鍵點拓?fù)?/p>

我們提出了一種新的拓?fù)浣Y(jié)構(gòu),使用人體上的33個點,采用了BlazeFace、BlazePalm和Coco使用的超集。這使得我們能夠與各自的數(shù)據(jù)集和推理網(wǎng)絡(luò)保持一致。

與OpenPose和Kinect的Topologies不同,我們僅使用面部、手部和腳部的最少數(shù)量的關(guān)鍵點來估計后續(xù)模型感興趣區(qū)域的旋轉(zhuǎn)、大小和位置。我們使用的拓?fù)浣Y(jié)構(gòu)如圖3所示。其他信息見附錄A。

Appendix A. BlazePose keypoint names

0. Nose 11. Left shoulder 22. Right thumb #2 knuckle
1. Left eye inner 12. Right shoulder

23. Left hip

2. Left eye 13. Left elbow 24. Right hip
3. Left eye outer 14. Right elbow 25. Left knee
4. Right eye inner 15. Left wrist 26. Right knee
5. Right eye 16. Right wrist 27. Left ankle
6. Right eye outer 17. Left pinky #1 knuckle 28. Right ankle
7. Left ear 18. Right pinky #1 knuckle 29. Left heel
8. Right ear 19. Left index #1 knuckle 30. Right heel
9. Mouth left 20. Right index #1 knuckle 31. Left foot index
10. Mouth right 21. Left thumb #2 knuckle 32. Right foot index

(4)數(shù)據(jù)集

基于解決方案需要初始位姿對齊。我們將我們的數(shù)據(jù)集限制在整個人都可見的情況下,或者在臀部和肩部關(guān)鍵點可以自信地注釋的情況下。為了確保模型支持?jǐn)?shù)據(jù)集中不存在的嚴(yán)重遮擋,我們使用大量的遮擋模擬增強。我們的訓(xùn)練數(shù)據(jù)集由60K張單人或少人在場景中常見姿勢的圖像和25K張單人在場景中進(jìn)行健身練習(xí)的圖像組成。這些圖像均由人類標(biāo)注。?

(5)神經(jīng)網(wǎng)絡(luò)架構(gòu)

本系統(tǒng)的姿態(tài)估計組件預(yù)測所有33個行人關(guān)鍵點的位置,并使用流水線第一階段提供的行人對齊建議( 3.1節(jié))。

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

圖4 網(wǎng)絡(luò)架構(gòu)

我們采用了熱圖、偏移和回歸相結(jié)合的方法,如圖4所示。我們只在訓(xùn)練階段使用heatmap和offset loss,并在運行推斷之前從模型中刪除相應(yīng)的輸出層。因此,我們有效地使用熱圖來監(jiān)督輕量級嵌入,然后由回歸編碼器網(wǎng)絡(luò)使用。該方法部分受到了Stacked Hourglass方法的啟發(fā),但在我們的案例中,我們堆疊了一個微小的基于編碼器-解碼器熱圖的網(wǎng)絡(luò)和一個后續(xù)的回歸編碼器網(wǎng)絡(luò)。

我們積極利用網(wǎng)絡(luò)所有階段之間的跳躍連接,以實現(xiàn)高級和低級功能之間的平衡。然而,來自回歸編碼器的梯度并沒有傳播回?zé)釄D訓(xùn)練的特征(注意圖4 中的漸變停止連接)。我們發(fā)現(xiàn)這不僅改善了熱圖的預(yù)測,而且大大提高了坐標(biāo)回歸的精度。

(6)對齊和遮擋增強

相關(guān)的位姿先驗是所提解決方案的重要部分。在增強和訓(xùn)練時的數(shù)據(jù)準(zhǔn)備過程中,我們特意限制了角度、尺度和平移的支持范圍。這允許我們降低網(wǎng)絡(luò)容量,使網(wǎng)絡(luò)更快,同時需要更少的計算和主機(jī)設(shè)備上的能量資源。

基于檢測階段或前一幀關(guān)鍵點,我們對齊人,使臀部之間的點位于通過的正方形圖像的中心作為神經(jīng)網(wǎng)絡(luò)輸入。我們估計旋轉(zhuǎn)作為中間臀部和中間肩點之間的直線L,并旋轉(zhuǎn)圖像,使L平行于y軸??s放比例是這樣估計的,這樣所有的身體點都適合于一個圍繞身體的正方形包圍盒,如圖2所示。除此之外,我們還應(yīng)用了10%的比例和移位增強,以確保跟蹤器處理幀之間的身體運動和扭曲的調(diào)整。

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

圖5 上半身情況的結(jié)果

為了支持不可見點的預(yù)測,我們在訓(xùn)練過程中模擬遮擋(填充不同顏色的隨機(jī)矩形),并引入一個點可見性分類器,該分類器指示特定點是否被遮擋以及位置預(yù)測是否被認(rèn)為不準(zhǔn)確。這允許跟蹤一個人,即使是在重要的遮擋情況下,如上半身,或者當(dāng)大多數(shù)人的身體不在場景中時,如圖5所示。

四、實驗

為了評估模型的質(zhì)量,我們選擇OpenPose《Openpose: Realtime multi-person 2d pose estimation using part affinity fields》作為基線。為此,我們手動注釋了兩個內(nèi)部數(shù)據(jù)集的1000幅圖像,每個數(shù)據(jù)集都有1 - 2人在現(xiàn)場。第一個數(shù)據(jù)集,稱為AR數(shù)據(jù)集,由各種各樣的人類在野外的姿勢組成,而第二個數(shù)據(jù)集只包括瑜伽/健身姿勢。對于一致性,我們只使用了MS Coco [ 8 ]拓?fù)渲械?7個點進(jìn)行評估,它是OpenPose和BlazePose的共同子集。作為評價指標(biāo),我們使用具有20 %容忍度的正確點百分比( PCK @ 0.2 ) (其中,如果2D Eu - clidean誤差小于誤差小于相應(yīng)的每個子的軀干尺寸的20 % ,則要正確檢測的點)。為了驗證人類基線,我們要求兩個注釋器獨立地重新注釋AR數(shù)據(jù)集,并獲得了97.2的平均PCK @ 0.2。

我們訓(xùn)練了兩個不同能力的模型:BlazePose Full ( 6.9 MFlop , 3.5M Params)和BlazePoseLite ( 2.7 MFlop , 1.3M Params)。盡管我們的模型在AR數(shù)據(jù)集上表現(xiàn)出略差于OpenPose模型的性能,但在Yoga / Fitness用例上,BlazePose Full優(yōu)于OpenPose。同時,BlazePose在單個中間層手機(jī)CPU上的執(zhí)行速度是OpenPose在20個核心桌面CPU上執(zhí)行速度的25 - 75倍,具體取決于所請求的質(zhì)量。

MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度

?表1?BlazePose vs OpenPose

1. Desktop CPU with 20 cores (Intel i9-7900X)

2. Pixel 2 Single Core via XNNPACK backend

五、應(yīng)用

我們開發(fā)了這個新的、設(shè)備上的、單一的個人特異性人體姿態(tài)估計模型,以啟用各種性能要求的用例,如手語、瑜伽/健身跟蹤和AR。此模型可在移動CPU上近實時工作,并可在移動GPU上加速到超實時延遲。由于其33個關(guān)鍵點拓?fù)渑cBlazeFace《Blaze-face: Sub-millisecond neural face detection on mobile gpus》和BlazePalm《On-device, real-timehand tracking with mediapipe》一致,因此它可以作為后續(xù)手部姿態(tài)和面部幾何估計《Real-time facial surface ge-ometry from monocular video on mobile gpus.》模型的基礎(chǔ)。

我們的方法原生地擴(kuò)展到更多的關(guān)鍵點、3D支持和額外的關(guān)鍵點屬性,因為它不是基于熱圖/偏移圖,因此不需要為每個新特性類型添加額外的全分辨率層。

>>> 如有疑問,歡迎評論區(qū)一起探討!文章來源地址http://www.zghlxwxcb.cn/news/detail-459335.html

到了這里,關(guān)于MediaPipe之人體關(guān)鍵點檢測>>>BlazePose論文精度的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Pytorch+Python實現(xiàn)人體關(guān)鍵點檢測

    Pytorch+Python實現(xiàn)人體關(guān)鍵點檢測

    用Python+Pytorch工程代碼對人體進(jìn)行關(guān)鍵點檢測和骨架提取,并實現(xiàn)可視化。 物體檢測為許多視覺任務(wù)提供動力,如實例分割、姿態(tài)估計、跟蹤和動作識別。它在監(jiān)控、自動駕駛和視覺答疑中有下游應(yīng)用。當(dāng)前的對象檢測器通過緊密包圍對象的軸向包圍框來表示每個對象。然后

    2024年02月09日
    瀏覽(21)
  • Python+OpenCV+OpenPose實現(xiàn)人體姿態(tài)估計(人體關(guān)鍵點檢測)

    Python+OpenCV+OpenPose實現(xiàn)人體姿態(tài)估計(人體關(guān)鍵點檢測)

    1、人體姿態(tài)估計簡介 2、人體姿態(tài)估計數(shù)據(jù)集 3、OpenPose庫 4、實現(xiàn)原理 5、實現(xiàn)神經(jīng)網(wǎng)絡(luò) 6、實現(xiàn)代碼 人體姿態(tài)估計(Human Posture Estimation),是通過將圖片中已檢測到的人體關(guān)鍵點正確的聯(lián)系起來,從而估計人體姿態(tài)。 人體關(guān)鍵點通常對應(yīng)人體上有一定自由度的關(guān)節(jié),比如頸、

    2024年02月04日
    瀏覽(23)
  • YOLOv5姿態(tài)估計:HRnet實時檢測人體關(guān)鍵點

    YOLOv5姿態(tài)估計:HRnet實時檢測人體關(guān)鍵點

    前言: Hello大家好,我是Dream。 今天來學(xué)習(xí)一下 利用YOLOv5進(jìn)行姿態(tài)估計,HRnet與SimDR檢測圖片、視頻以及攝像頭中的人體關(guān)鍵點 ,歡迎大家一起前來探討學(xué)習(xí)~ 首先需要我們利用Pycharm直接克隆github中的姿態(tài)估計原工程文件,如果不知道怎樣在本地克隆Pycharm,可以接著往下看,

    2024年01月17日
    瀏覽(27)
  • YOLOv8 人體姿態(tài)估計(關(guān)鍵點檢測) python推理 && ONNX RUNTIME C++部署

    YOLOv8 人體姿態(tài)估計(關(guān)鍵點檢測) python推理 && ONNX RUNTIME C++部署

    目錄 ? 1、下載權(quán)重 ?編輯2、python 推理 3、轉(zhuǎn)ONNX格式 4、ONNX RUNTIME C++ 部署 utils.h utils.cpp detect.h detect.cpp main.cpp CmakeList.txt 我這里之前在做實例分割的時候,項目已經(jīng)下載到本地,環(huán)境也安裝好了,只需要下載pose的權(quán)重就可以 輸出: ? 用netron查看一下: ?如上圖所是,YOLO

    2024年02月07日
    瀏覽(29)
  • OpenMMLab-AI實戰(zhàn)營第二期——2-1.人體關(guān)鍵點檢測與MMPose

    OpenMMLab-AI實戰(zhàn)營第二期——2-1.人體關(guān)鍵點檢測與MMPose

    視頻鏈接:B站-人體關(guān)鍵點檢測與MMPose 關(guān)鍵點提取,屬于模式識別 人體姿態(tài)估計的下游任務(wù):行為識別(比如:擁抱。。) 下游任務(wù):CG和動畫,這個是最常見的應(yīng)用 下游任務(wù):人機(jī)交互(手勢識別,依據(jù)收拾做出不同的響應(yīng),比如:HoloLens會對五指手勢(3D)做出不同的反

    2024年02月11日
    瀏覽(18)
  • yolov8-pose:在yolov8上添加人體關(guān)鍵點檢測

    yolov8-pose:在yolov8上添加人體關(guān)鍵點檢測

    ? ? 最近因為工作關(guān)系接觸了yolo-pose,1月份yolov8也出來了,就想著能不能在yolov8上也加上pose分支,也算加深對網(wǎng)絡(luò)的認(rèn)識。 ? ? yolov8在數(shù)據(jù)處理上也考慮了keypoints的,所以數(shù)據(jù)處理部分不用太多的修改,主要修改了Detect類、Loss類。 ? ? Detect類:__init__方法中加入nkpt以及c

    2024年02月11日
    瀏覽(21)
  • 【mmpose】從openmmlab官方文檔看mmpose架構(gòu)設(shè)計,模塊組成,快速上手實現(xiàn)關(guān)鍵點檢測效果(動物,人體,手部等)

    【mmpose】從openmmlab官方文檔看mmpose架構(gòu)設(shè)計,模塊組成,快速上手實現(xiàn)關(guān)鍵點檢測效果(動物,人體,手部等)

    MMPOSE 架構(gòu)設(shè)計 MMPose 1.0 與之前的版本有較大改動,對部分模塊進(jìn)行了重新設(shè)計和組織,降低代碼冗余度,提升運行效率,降低學(xué)習(xí)難度。使用 MMPose 1.0 時開發(fā)者會關(guān)心的內(nèi)容: 整體代碼架構(gòu)與設(shè)計邏輯; 如何用config文件管理模塊; 如何使用自定義數(shù)據(jù)集; 如何添加新的模

    2024年02月08日
    瀏覽(18)
  • 解剖學(xué)關(guān)鍵點檢測方向論文翻譯和精讀:基于熱力圖回歸的CNN融入空間配置實現(xiàn)關(guān)鍵點定位

    解剖學(xué)關(guān)鍵點檢測方向論文翻譯和精讀:基于熱力圖回歸的CNN融入空間配置實現(xiàn)關(guān)鍵點定位

    Abstract: In many medical image analysis applications, only a limited amount of training data is available due to the costs of image acquisition and the large manual annotation effort required from experts. Training recent state-of-the-art machine learning methods like convolutional neural networks (CNNs) from small datasets is a challenging task. In this wo

    2024年02月09日
    瀏覽(46)
  • MMPose姿態(tài)估計+人體關(guān)鍵點識別效果演示

    MMPose姿態(tài)估計+人體關(guān)鍵點識別效果演示

    1.1 背景 首先姿態(tài)估計屬于計算機(jī)視覺領(lǐng)域的一個基礎(chǔ)研究方向。MMPose是基于Pytorch的姿態(tài)估計開源算法庫,功能全,涵蓋的算法多。 1.2 姿態(tài)估計的任務(wù)分類 維度 :預(yù)測的是2D還是3D姿態(tài)。 輸入格式 :圖片 or 視頻 姿態(tài)的表示形式 :關(guān)鍵點 or 形狀等 目標(biāo)類型 :全身 or 人臉

    2024年01月20日
    瀏覽(20)
  • 【一步步開發(fā)AI運動小程序】十一、人體關(guān)鍵點跳躍追蹤

    【一步步開發(fā)AI運動小程序】十一、人體關(guān)鍵點跳躍追蹤

    隨著人工智能技術(shù)的不斷發(fā)展,阿里體育等IT大廠,推出的“樂動力”、“天天跳繩”AI運動APP,讓 云上運動會、線上運動會、健身打卡、AI體育指導(dǎo) 等概念空前火熱。那么,能否將這些在APP成功應(yīng)用的場景搬上小程序,分享這些概念的紅利呢?本系列文章就帶您一步一步從

    2024年02月07日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包