国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

PoseFormer:基于視頻的2D-to-3D單人姿態(tài)估計(jì)

這篇具有很好參考價(jià)值的文章主要介紹了PoseFormer:基于視頻的2D-to-3D單人姿態(tài)估計(jì)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

論文鏈接:3D Human Pose Estimation with Spatial and Temporal Transformers
論文代碼:https://github.com/zczcwh/PoseFormer
論文出處:2021 ICCV
論文單位:University of Central Florida, USA文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-761587.html

摘要

  • Transformer架構(gòu)已經(jīng)成為自然語(yǔ)言處理中的首選模型,現(xiàn)在正被引入到計(jì)算機(jī)視覺(jué)任務(wù)中,例如圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割。
  • 然而,在人體姿態(tài)估計(jì)領(lǐng)域,卷積架構(gòu)仍然占主導(dǎo)地位。
  • 在這項(xiàng)工作中,我們呈現(xiàn)PoseFormer,一種純粹基于Transformer的方法,用于視頻中的3D人體姿勢(shì)估計(jì),不涉及卷積架構(gòu)。
  • 受視覺(jué)Transformer最新發(fā)展的啟發(fā),我們?cè)O(shè)計(jì)了一個(gè)時(shí)空Transformer結(jié)構(gòu),以全面建模每幀內(nèi)的人體關(guān)節(jié)關(guān)系以及幀間的時(shí)間相關(guān)性,然后輸出中心幀的精確三維人體姿態(tài)。
  • 我們?cè)趦蓚€(gè)流行的和標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集:Human3.6MMPI-INF-3DHP上定量和定性地評(píng)估了我們的方法。大量的實(shí)驗(yàn)表明,PoseFormer在兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。

1. 簡(jiǎn)介

  • 人體姿態(tài)估計(jì)(HPE) 旨在從圖像和視頻等輸入數(shù)據(jù)中定位關(guān)節(jié)并構(gòu)建身體表示(例如骨骼位置)。
  • HPE提供人體的幾何和運(yùn)動(dòng)信息,可以應(yīng)用于廣泛的應(yīng)用(如人機(jī)交互,運(yùn)動(dòng)分析,醫(yī)療保健)。
  • 目前的工作大致可以分為兩類: (1)直接估算方法,(2)2D-to-3D提升方法
  • 直接估計(jì)方法從2D圖像或視頻幀中推斷出3D人體姿勢(shì),而無(wú)需中間估計(jì)2D姿勢(shì)表示。
  • 2D-to-3D提升方法從中間估計(jì)的2D姿勢(shì)推斷出3D人體姿勢(shì)。
  • 得益于最先進(jìn)的2D姿態(tài)檢測(cè)器的優(yōu)異性能,2D-to-3D提升方法通常優(yōu)于直接估計(jì)方法。
  • 然而,這些2D姿勢(shì)到3D的映射是non-trivial; 由于深度模糊和遮擋,相同的2D姿態(tài)可以生成各種潛在的3D姿態(tài)。
  • 為了緩解這些問(wèn)題并保持自然的連貫性,許多最近的作品將來(lái)自視頻的時(shí)間信息整合到他們的方法中。然而,基于cnn的方法通常依賴于固有的有限時(shí)間連通性的擴(kuò)張技術(shù),而循環(huán)網(wǎng)絡(luò)主要受限于簡(jiǎn)單的順序相關(guān)性。
  • 最近,Transformer 由于其效率、可擴(kuò)展性和強(qiáng)大的建模能力,已經(jīng)成為自然語(yǔ)言處理(NLP)事實(shí)上的模型。由于Transformer 的self-attention 機(jī)制,可以清楚地捕獲跨長(zhǎng)輸入序列的全局相關(guān)性。這使得它特別適合序列數(shù)據(jù)問(wèn)題的架構(gòu),因此可以自然地?cái)U(kuò)展到3D HPE。
  • 憑借其全面的連通性和表達(dá),Transformer 提供了一個(gè)跨幀學(xué)習(xí)更強(qiáng)的時(shí)間表示的機(jī)會(huì)。
  • 然而,最近的研究表明,Transformer 需要特定的設(shè)計(jì)才能在視覺(jué)任務(wù)中達(dá)到與CNN同類產(chǎn)品相當(dāng)?shù)男阅?。具體來(lái)說(shuō),它們通常需要非常大規(guī)模的訓(xùn)練數(shù)據(jù)集,或者如果應(yīng)用于較小的數(shù)據(jù)集,則增強(qiáng)數(shù)據(jù)增強(qiáng)和正則化。
  • 此外,現(xiàn)有的視覺(jué)變壓器主要局限于圖像分類、目標(biāo)檢測(cè)和分割,但如何利用變壓器的力量進(jìn)行3D HPE仍然不清楚。
  • 為了回答這個(gè)問(wèn)題,我們首先將變壓器直接應(yīng)用于2D-to-3D lifting HPE。在這種情況下,我們將給定序列中每幀的整個(gè)2D姿態(tài)視為一個(gè)標(biāo)記( token)(圖1(a))。 雖然這種基線方法在一定程度上是有效的,但它忽略了空間關(guān)系(關(guān)節(jié)對(duì)關(guān)節(jié))的自然區(qū)別。
    poseformer,3D HPE,Transformer
  • 對(duì)該基線的自然擴(kuò)展是將每個(gè)2D關(guān)節(jié)坐標(biāo)視為一個(gè)token,提供由序列所有幀中的這些關(guān)節(jié)組成的輸入(圖1(b))。然而,在這種情況下,當(dāng)使用長(zhǎng)幀序列時(shí),token的數(shù)量變得越來(lái)越大(在3D HPE中,每幀最多243幀,17個(gè)關(guān)節(jié)是常見(jiàn)的,token的數(shù)量將為243×17=4131)。由于Transformer計(jì)算每個(gè)token對(duì)另一個(gè)token的直接關(guān)注,因此模型的內(nèi)存需求接近不合理的水平。
  • 因此,作為應(yīng)對(duì)這些挑戰(zhàn)的有效解決方案,我們提出了PoseFormer,這是第一個(gè)用于視頻中2d到3d提升HPE的純Transformer網(wǎng)絡(luò)。
  • PoseFormer使用兩個(gè)維度的不同Transformer模塊直接對(duì)空間和時(shí)間方面進(jìn)行建模
  • PoseFormer不僅在空間和時(shí)間元素之間產(chǎn)生強(qiáng)大的表示,而且不會(huì)對(duì)長(zhǎng)輸入序列產(chǎn)生大量的token計(jì)數(shù)。
  • 在高層次上,PoseFormer只是從現(xiàn)成的2D姿態(tài)估計(jì)器中提取一系列檢測(cè)到的2D姿態(tài),并輸出中心幀的3D姿態(tài)。
  • 更具體地說(shuō),我們建立了一個(gè)空間Transformer模塊來(lái)編碼每個(gè)幀中二維關(guān)節(jié)之間的局部關(guān)系。 空間self-attention層考慮二維關(guān)節(jié)的位置信息,并返回該幀的潛在特征表示。接下來(lái),我們的時(shí)間Transformer模塊分析每個(gè)空間特征表示之間的全局依賴關(guān)系,并生成準(zhǔn)確的3D姿態(tài)估計(jì)。
  • 在兩種流行的3D HPE基準(zhǔn)(Human3.6M和MPI-INF-3DHP)上的實(shí)驗(yàn)評(píng)估表明,PoseFormer在這兩個(gè)數(shù)據(jù)集上都達(dá)到了最先進(jìn)的性能。我們將我們估計(jì)的3D姿態(tài)與SOAT方法進(jìn)行比較,并發(fā)現(xiàn)
    PoseFormer產(chǎn)生更平滑、更可靠的結(jié)果。此外,消融研究中還提供了PoseFormer注意力圖的可視化和分析,以了解模型的內(nèi)部工作原理并證明其有效性。
  • 我們的貢獻(xiàn)有三方面:
    (1)我們提出了第一個(gè)純基于Transformer的模型PoseFormer,用于3D HPE的2d到3D lifting。
    (2)我們?cè)O(shè)計(jì)了一個(gè)有效的時(shí)空Transformer模型,其中空間Transformer模塊編碼人體關(guān)節(jié)之間的局部關(guān)系,而時(shí)間Transformer模塊捕獲整個(gè)序列中跨幀的全局依賴關(guān)系。
    (3)我們的PoseFormer模型在Human3.6M和MPI-INF-3DHP數(shù)據(jù)集上取得了SOAT效果。

2. Related Works

  • 在這里,我們具體總結(jié)了3D單人單視圖HPE方法。
  • 直接估計(jì)方法: 從二維圖像中推斷三維人體姿態(tài),而不需要中間估計(jì)二維姿態(tài)表示。
  • 2D-to-3D lifting 方法: 利用2D姿態(tài)作為輸入來(lái)生成相應(yīng)的3D姿態(tài),這在該領(lǐng)域的最新方法中較為流行。任何現(xiàn)成的2D姿態(tài)估計(jì)器都可以有效地與這些方法兼容。

2.1 2D-to-3D Lifting HPE

  • 2D到3d提升方法利用從輸入圖像或視頻幀估計(jì)的2D姿勢(shì)。
  • OpenPose、CPN、AlphaPose和HRNet被廣泛用作2D姿態(tài)檢測(cè)器。
  • 基于這種中間表示,可以使用多種方法生成3D姿態(tài)。
  • 然而,以前最先進(jìn)的方法依賴于擴(kuò)展的時(shí)間卷積(dilated temporal convolutions)來(lái)捕獲全局依賴關(guān)系,這在時(shí)間連接上是有限的。
  • 此外,這些工作中的大多數(shù)使用簡(jiǎn)單的操作將關(guān)節(jié)坐標(biāo)投影到潛在空間,而沒(méi)有考慮人體關(guān)節(jié)的運(yùn)動(dòng)學(xué)相關(guān)性。

2.2 GNNs in 3D HPE

  • 自然地,人體姿勢(shì)可以表示為一個(gè)graph,其中關(guān)節(jié)是nodes ,骨骼是 edges。
  • 圖神經(jīng)網(wǎng)絡(luò)(GNNs)也被應(yīng)用于 2D-to-3D pose lifting 問(wèn)題,并提供了很好的表現(xiàn)。
  • 對(duì)于我們的PoseFormer,transformer可以被視為一種具有獨(dú)特且通常有利的圖操作的GNN。
  • 具體來(lái)說(shuō),一個(gè)transformer編碼器模塊本質(zhì)上形成了一個(gè)全連接圖,其中邊緣權(quán)重是使用輸入條件,多頭self-attention計(jì)算的。
  • 該操作還包括節(jié)點(diǎn)特征的規(guī)范化,跨注意頭輸出的前饋聚合器,以及使其能夠有效地?cái)U(kuò)展堆疊層的剩余連接。
  • 與其他圖操作相比,這樣的操作是有利的。例如,節(jié)點(diǎn)之間連接的強(qiáng)度由transformer的self-attention機(jī)制決定,而不是像典型的那樣通過(guò)鄰接矩陣預(yù)定義。
  • 本任務(wù)中使用的基于gcn的配方。 這使得模型能夠靈活地根據(jù)每個(gè)輸入姿勢(shì)調(diào)整關(guān)節(jié)的相對(duì)重要性。
  • 此外,transformer的綜合縮放和歸一化組件可能有利于減輕當(dāng)多層堆疊在一起時(shí)困擾許多GNN操作變體的過(guò)度平滑效應(yīng)。

2.3 Vision Transformers

  • 最近,有一個(gè)新興的興趣將 Transformer 應(yīng)用于視覺(jué)任務(wù)。
  • DEtection TRansformer (DETR) 用于目標(biāo)檢測(cè)與全景分割。
  • Vision Transformer (ViT) ,純Transformer 構(gòu)架,在圖像分類方面達(dá)到了SOAT的性能。
  • Transpose,基于Transformer 構(gòu)架,從圖像中估計(jì)3D姿態(tài)。
  • MEsh TRansfOrmer,將cnn與Transformer 網(wǎng)絡(luò)結(jié)合起來(lái),從單個(gè)圖像重建3D pose 和 mesh vertices。
  • 本文方法的時(shí)空Transformer 架構(gòu)利用了每幀中的關(guān)鍵點(diǎn)相關(guān)性,并保留了視頻中的自然時(shí)間一致性。

3. Method

  • Pipeline:通過(guò)現(xiàn)成的2D姿態(tài)檢測(cè)器獲得每幀的2D姿態(tài),使用連續(xù)幀的二維姿態(tài)序列作為輸入,估計(jì)中心幀的三維姿態(tài)。

3.1 Temporal Transformer Baseline

  • 作為 2D-to-3D lifting 的基線應(yīng)用,我們將每個(gè)2D姿態(tài)視為輸入token,并使用Transformer 來(lái)捕獲輸入之間的全局依賴關(guān)系,如圖2(a)所示。
    poseformer,3D HPE,Transformer
  • 我們將把每個(gè)輸入token稱為一個(gè)patch,在術(shù)語(yǔ)上類似于ViT.
  • 對(duì)于輸入序列X∈R^(f×(J·2)),f 為輸入序列的幀數(shù),J為每幀的關(guān)節(jié)數(shù)2D位姿,2表示關(guān)節(jié)在2D空間中的坐標(biāo)。
  • patch embedding 是一個(gè)可訓(xùn)練的線性投影層,將每個(gè)patch 嵌入到高維特征中。
  • Transformer 網(wǎng)絡(luò)利用位置嵌入來(lái)保留序列的位置信息。
  • self-attention是Transformer 的核心功能,它將輸入序列的不同位置與嵌入特征聯(lián)系起來(lái)。
  • 我們的Transformer 編碼器由多頭自注意塊和多層感知器(MLP)塊組成。LayerNorm在每個(gè)塊之前應(yīng)用,剩余連接在每個(gè)塊之后應(yīng)用。
  • 為了預(yù)測(cè)中心幀的三維姿態(tài),編碼器輸出Y∈Rf×C通過(guò)在幀維中取平均值,收縮為向量y∈R1×C。最后,一個(gè)MLP塊將輸出回歸到 y∈R1×(J*3),即中心框架的3D姿態(tài)。

3.2 PoseFormer: Spatial-Temporal Transformer

  • 我們觀察到,時(shí)間Transformer基線主要關(guān)注輸入序列中幀之間的全局依賴關(guān)系。利用線性變換patch embedding將關(guān)節(jié)坐標(biāo)投影到隱維上。
  • 然而,由于簡(jiǎn)單的線性投影層無(wú)法學(xué)習(xí)到attention信息,局部關(guān)節(jié)坐標(biāo)之間的運(yùn)動(dòng)信息在時(shí)序Transformer基線中沒(méi)有得到強(qiáng)有力的表示。
  • 一個(gè)潛在的解決方案是將每個(gè)關(guān)節(jié)坐標(biāo)視為一個(gè)單獨(dú)的patch,并將所有幀的關(guān)節(jié)作為輸入饋送到Transformer(見(jiàn)圖1(b))。
  • 然而,patch的數(shù)量會(huì)迅速增加(幀數(shù) f 乘以關(guān)節(jié)數(shù) J),導(dǎo)致模型的計(jì)算復(fù)雜度為O((f·J)2)。
  • 為了有效地學(xué)習(xí)局部聯(lián)合相關(guān)性,我們分別對(duì)空間和時(shí)間信息使用了兩個(gè)分離的Transformer。
  • 如圖2(b)所示,PoseFormer由三個(gè)模塊組成: spatial transformer module, temporal transformer module, and regression head module

Spatial Transformer Module

  • Spatial Transformer Module是從單個(gè)幀中提取高維特征嵌入。給定一個(gè)具有 J 個(gè)關(guān)節(jié)的二維姿態(tài),我們將每個(gè)關(guān)節(jié)(即兩個(gè)坐標(biāo))視為一個(gè)patch,并按照通用視覺(jué)變換pipeline在所有patch之間進(jìn)行特征提取。
  • 首先,我們用可訓(xùn)練的線性投影將每個(gè)關(guān)節(jié)的坐標(biāo)映射到高維空間,這被稱為spatial patch embedding。

Temporal Transformer Module

  • 由于Spatial Transformer Module為每個(gè)單獨(dú)的幀編碼高維特征,因此Temporal Transformer Module的目標(biāo)是跨幀序列建模依賴關(guān)系。
  • 在Temporal Transformer Module之前,我們加入了可學(xué)習(xí)的時(shí)序位置嵌入來(lái)保留幀的位置信息。
  • 對(duì)于Temporal Transformer Module編碼器,我們采用與Spatial Transformer Module編碼器相同的架構(gòu),該架構(gòu)由多頭self-attention塊和MLP塊組成。
  • 時(shí)序變壓器模塊的輸出為 Y∈Rf*(J*c)。

Regression Head

  • 由于我們使用一組幀序列來(lái)預(yù)測(cè)中心幀的三維姿態(tài),因此Temporal Transformer Module Y∈Rf*(J·c)的輸出需要簡(jiǎn)化為 y∈R1*(J·c)。
  • 我們?cè)趲S度上應(yīng)用加權(quán)平均操作(使用學(xué)習(xí)到的權(quán)重)來(lái)實(shí)現(xiàn)這一點(diǎn)。
  • 最后,一個(gè)具有Layer范數(shù)和一個(gè)線性層的簡(jiǎn)單MLP塊返回輸出 y∈R1*(J·3),這是中心幀的預(yù)測(cè)三維姿態(tài)。

Loss Function

  • 為了訓(xùn)練我們的時(shí)空轉(zhuǎn)換模型,我們使用了標(biāo)準(zhǔn)的MPJPE (Mean Per Joint Position Error)損失以最小化預(yù)測(cè)值與ground truth姿態(tài)之間的誤差為
    poseformer,3D HPE,Transformer

4. 數(shù)據(jù)集

4.1 Human3.6M

  • Human3.6M是3D單人HPE使用最廣泛的室內(nèi)數(shù)據(jù)集。
  • 由11名專業(yè)演員表演坐、走、打電話等17種動(dòng)作。
  • 每個(gè)受試者在室內(nèi)環(huán)境中從4個(gè)不同的角度拍攝視頻。
  • 該數(shù)據(jù)集包含360萬(wàn)視頻幀,其中包含基于精確標(biāo)記的動(dòng)作捕捉系統(tǒng)捕獲的3D地面真相注釋。
  • 根據(jù)之前的工作,我們采用相同的實(shí)驗(yàn)設(shè)置: 所有15個(gè)動(dòng)作都用于訓(xùn)練和測(cè)試,模型訓(xùn)練在5個(gè)sections(S1, S5,S6, S7, S8)和測(cè)試在 2個(gè)sections(S9和S11)。

4.2 MPI-INF-3DHP

  • MPI-INF-3DHP是一個(gè)更具挑戰(zhàn)性的三維姿態(tài)數(shù)據(jù)集。
  • 它既包含受限的室內(nèi)場(chǎng)景,也包含復(fù)雜的室外場(chǎng)景。
  • 有8個(gè)演員表演8個(gè)動(dòng)作,從14個(gè)攝像機(jī)視圖,涵蓋了更大的多樣性的姿勢(shì)。
  • MPI-INF-3DHP提供了6個(gè)不同場(chǎng)景的測(cè)試集。

5. 評(píng)測(cè)指標(biāo)

  • MPJPE :Mean Per Joint Position Error,平均每個(gè)關(guān)節(jié)位置誤差,估計(jì)關(guān)節(jié)與地面真值之間的平均歐幾里得距離,單位為毫米。
  • P-MPJPE: P-MPJPE是估計(jì)的三維姿態(tài)與ground truth經(jīng)過(guò)后處理后的剛性對(duì)準(zhǔn)后的MPJPE,對(duì)單個(gè)關(guān)節(jié)預(yù)測(cè)失敗具有更強(qiáng)的魯棒性。
  • PCK:Percentage of Correct Keypoint,在150mm范圍內(nèi)的正確關(guān)節(jié)點(diǎn)的百分比。
  • AUC:Area Under Curve,曲線下面積。

到了這里,關(guān)于PoseFormer:基于視頻的2D-to-3D單人姿態(tài)估計(jì)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Mediapipe人體骨架檢測(cè)和實(shí)時(shí)3d繪制——Mediapipe實(shí)時(shí)姿態(tài)估計(jì)

    Mediapipe人體骨架檢測(cè)和實(shí)時(shí)3d繪制——Mediapipe實(shí)時(shí)姿態(tài)估計(jì)

    大約兩年前,基于自己的理解我曾寫了幾篇關(guān)于Mediapipe的文章,似乎幫助到了一些人。這兩年,忙于比賽、實(shí)習(xí)、畢業(yè)、工作和考研。上篇文章已經(jīng)是一年多前發(fā)的了。這段時(shí)間收到很多私信和評(píng)論,請(qǐng)?jiān)彑o(wú)法一一回復(fù)了。我將嘗試在這篇文章里回答一些大家經(jīng)常問(wèn)到的問(wèn)

    2024年02月03日
    瀏覽(90)
  • 學(xué)習(xí)關(guān)于 2D 和 3D 姿勢(shì)估計(jì)的知識(shí)

    學(xué)習(xí)關(guān)于 2D 和 3D 姿勢(shì)估計(jì)的知識(shí)

    介紹 讓我們了解一下如何將姿勢(shì)估計(jì)用于 Snapchat 濾鏡。你有沒(méi)有想過(guò) Snapchat 的濾鏡為什么這么吸引人?Snapchat 上的濾鏡種類繁多,從有趣的到化妝的濾鏡。這更像是滑動(dòng)濾鏡并選擇一個(gè)你感興趣的濾鏡來(lái)拍照。 閱讀本文并不需要任何有關(guān)姿勢(shì)估計(jì)的基礎(chǔ)知識(shí)。本文從頭到尾

    2023年04月08日
    瀏覽(17)
  • 2D人臉關(guān)鍵點(diǎn)轉(zhuǎn)3D人臉關(guān)鍵點(diǎn)的映射~頭部姿態(tài)筆記

    2D人臉關(guān)鍵點(diǎn)轉(zhuǎn)3D人臉關(guān)鍵點(diǎn)的映射~頭部姿態(tài)筆記

    對(duì)通過(guò)相機(jī)參數(shù)計(jì)算圖像上的二維坐標(biāo)到三維坐標(biāo)的映射進(jìn)行簡(jiǎn)單探討。 ????????學(xué)習(xí)的話直接看他們的就好,我僅是拾人牙慧,拿GPT寫給自己看的,圖也是直接搬運(yùn)的別人畫的,以下鏈接有很完善的理論研究和代碼提供。 https://medium.com/@susanne.thierfelder/head-pose-estimation

    2024年02月04日
    瀏覽(24)
  • 簡(jiǎn)要介紹 | 基于深度學(xué)習(xí)的姿態(tài)估計(jì)技術(shù)

    簡(jiǎn)要介紹 | 基于深度學(xué)習(xí)的姿態(tài)估計(jì)技術(shù)

    注1:本文系“簡(jiǎn)要介紹”系列之一,僅從概念上對(duì)基于深度學(xué)習(xí)的姿態(tài)估計(jì)技術(shù)進(jìn)行非常簡(jiǎn)要的介紹,不適合用于深入和詳細(xì)的了解。 注2:\\\"簡(jiǎn)要介紹\\\"系列的所有創(chuàng)作均使用了AIGC工具輔助 姿態(tài)估計(jì) 是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向,它主要關(guān)注如何從圖像或視頻中提

    2024年02月09日
    瀏覽(25)
  • 基于OpenCV 和 Dlib 進(jìn)行頭部姿態(tài)估計(jì)

    基于OpenCV 和 Dlib 進(jìn)行頭部姿態(tài)估計(jì)

    工作中遇到,簡(jiǎn)單整理 博文內(nèi)容涉及基于 OpenCV 和 Dlib 頭部姿態(tài)評(píng)估的簡(jiǎn)單Demo 理解不足小伙伴幫忙指正 廬山煙雨浙江潮,未到千般恨不消。到得還來(lái)別無(wú)事,廬山煙雨浙江潮。 ----《廬山煙雨浙江潮》蘇軾 https://github.com/LIRUILONGS/Head-posture-detection-dlib-opencv-.git 實(shí)驗(yàn)項(xiàng)目以上傳

    2024年02月12日
    瀏覽(19)
  • 基于 pytorch-openpose 實(shí)現(xiàn) “多目標(biāo)” 人體姿態(tài)估計(jì)

    基于 pytorch-openpose 實(shí)現(xiàn) “多目標(biāo)” 人體姿態(tài)估計(jì)

    還記得上次通過(guò) MediaPipe 估計(jì)人體姿態(tài)關(guān)鍵點(diǎn)驅(qū)動(dòng) 3D 角色模型,雖然節(jié)省了動(dòng)作 K 幀時(shí)間,但是網(wǎng)上還有一種似乎更方便的方法。MagicAnimate 就是其一,說(shuō)是只要提供一張人物圖片和一段動(dòng)作視頻 (舞蹈武術(shù)等),就可以完成圖片人物轉(zhuǎn)視頻。 于是我就去官網(wǎng)體驗(yàn)了一下,發(fā)現(xiàn)

    2024年01月25日
    瀏覽(17)
  • 基于EKF的四旋翼無(wú)人機(jī)姿態(tài)估計(jì)matlab仿真

    基于EKF的四旋翼無(wú)人機(jī)姿態(tài)估計(jì)matlab仿真

    目錄 1.算法描述 2.仿真效果預(yù)覽 3.MATLAB核心程序 4.完整MATLAB ? ? ? ?卡爾曼濾波是一種高效率的遞歸濾波器(自回歸濾波器),它能夠從一系列的不完全包含噪聲的測(cè)量中,估計(jì)動(dòng)態(tài)系統(tǒng)的狀態(tài)。這種濾波方法以它的發(fā)明者魯?shù)婪颉·卡爾曼(Rudolf E. Kalman)命名??柭畛跆?/p>

    2023年04月23日
    瀏覽(358)
  • 基于目標(biāo)檢測(cè)、跟蹤 的人體姿態(tài)估計(jì) 算法進(jìn)行跌倒檢測(cè) ---- fall detection

    前序文章: 深度學(xué)習(xí)與視頻分析簡(jiǎn)介 視頻分析:基于目標(biāo)檢測(cè)(YOLO)實(shí)現(xiàn)走路看手機(jī)檢測(cè)、玩手機(jī)檢測(cè)、跌倒檢測(cè)等 基于深度學(xué)習(xí)算法的行為識(shí)別解決方案:打電話、玩手機(jī)、摔倒等行為動(dòng)作的識(shí)別,跟蹤

    2024年02月09日
    瀏覽(20)
  • LLM量化、高保真圖生視頻、多模態(tài)肢體運(yùn)動(dòng)生成、高分辨率圖像合成、低光圖像/視頻增強(qiáng)、相機(jī)相對(duì)姿態(tài)估計(jì)

    LLM量化、高保真圖生視頻、多模態(tài)肢體運(yùn)動(dòng)生成、高分辨率圖像合成、低光圖像/視頻增強(qiáng)、相機(jī)相對(duì)姿態(tài)估計(jì)

    本文首發(fā)于公眾號(hào):機(jī)器感知 LLM量化、高保真圖生視頻、多模態(tài)肢體運(yùn)動(dòng)生成、高分辨率圖像合成、低光圖像/視頻增強(qiáng)、相機(jī)相對(duì)姿態(tài)估計(jì) EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs Large language models (LLMs) have proven to be very superior to conventional methods in various tasks. Howev

    2024年03月12日
    瀏覽(30)
  • 人體姿態(tài)估計(jì)和手部姿態(tài)估計(jì)任務(wù)中神經(jīng)網(wǎng)絡(luò)的選擇

    一、 人體姿態(tài)估計(jì) 任務(wù)適合使用 卷積神經(jīng)網(wǎng)絡(luò)(CNN) 來(lái)解決。 ????????人體姿態(tài)估計(jì)任務(wù)的目標(biāo)是從給定的圖像或視頻中推斷出人體的關(guān)節(jié)位置和姿勢(shì)。這是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)任務(wù),而CNN在處理圖像數(shù)據(jù)方面表現(xiàn)出色。 ????????使用CNN進(jìn)行人體姿態(tài)估計(jì)

    2024年02月05日
    瀏覽(25)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包