国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

《3D Diffusion Policy》論文閱讀

這篇具有很好參考價(jià)值的文章主要介紹了《3D Diffusion Policy》論文閱讀。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本文僅是個(gè)人對該文章的閱讀總結(jié),并不能全篇概括作者的精華,還需大家詳細(xì)閱讀原文

---------------------------------------------------------------------------------------------------------------------------------

摘要

問題:模仿學(xué)習(xí)為教授機(jī)器人靈巧技能提供了一種高效途徑,但是學(xué)習(xí)復(fù)雜的、具有普適性的技能通常需要大量的人類示范

解決:3D擴(kuò)散策略(DP3)將3D視覺表示的強(qiáng)大之處融入到擴(kuò)散策略中,這是一類有條件的動(dòng)作生成模型。

核心:利用高效的點(diǎn)編碼器從稀疏點(diǎn)云中提取緊湊的3D視覺表示。

取得成果:

(1)在涉及 72 個(gè)模擬任務(wù)的實(shí)驗(yàn)中,DP3僅使用 10 個(gè)示范就成功處理了大多數(shù)任務(wù),并且相對于基線方法取得了 55.3% 的相對改進(jìn)。

(2)在 4 個(gè)真實(shí)機(jī)器人任務(wù)中,DP3僅使用每個(gè)任務(wù) 40 個(gè)示范就展示了精確控制,成功率高達(dá) 85%,并且在空間、視點(diǎn)、外觀和實(shí)例等多個(gè)方面展現(xiàn)了出色的泛化能力。

(3)DP3很少違反安全要求。

方法

問題定義:

????????????????視覺運(yùn)動(dòng)策略 π : O ?→? A

????????????????視覺觀察 o ∈ O?

????????????????動(dòng)作 a ∈ A

DP3組成:

(1)Perception:DP3利用點(diǎn)云數(shù)據(jù)感知環(huán)境,并利用高效的點(diǎn)編碼器將這些視覺觀測結(jié)果處理成視覺特征;

(2)Decision:DP3利用了expressive Diffusion Policy 作為動(dòng)作生成的支干,該策略根據(jù)我們的3D視覺特征生成動(dòng)作序列。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

A Motivating Example

證明DP3的泛化能力:

? ? ? ? 目標(biāo):讓手持器準(zhǔn)確的到達(dá)指定目標(biāo)點(diǎn)

????????為了評估模仿學(xué)習(xí)算法不僅適應(yīng)訓(xùn)練數(shù)據(jù)的有效性,還要泛化到新場景的能力,在3D空間中可視化了?訓(xùn)練點(diǎn)和?成功評估點(diǎn)

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

僅用五個(gè)訓(xùn)練點(diǎn),DP3就能到達(dá)分布在3D空間中的點(diǎn),展示了DP3在數(shù)據(jù)有限的情況下的優(yōu)越泛化能力和效率。

Perception

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

DP3側(cè)重于僅使用單視圖攝像機(jī)對所有任務(wù)進(jìn)行策略學(xué)習(xí)。

Representing 3D scenes with point clouds(點(diǎn)云表示)
  • DP3采用稀疏點(diǎn)云作為三維表示,因?yàn)榕c(RGB-D、深度和體素)相比,點(diǎn)云更有效。
  • 對于模擬和現(xiàn)實(shí)世界,從單個(gè)相機(jī)獲得大小為84 × 84的深度圖像。然后,使用相機(jī)外參和內(nèi)參將深度轉(zhuǎn)換為點(diǎn)云。為了獲得更好的外觀泛化效果,不使用彩色通道。
Point cloud processing(點(diǎn)云處理)
  • 由于從深度轉(zhuǎn)換而來的點(diǎn)云可能包含冗余點(diǎn),因此需要裁剪掉這些點(diǎn),僅保留在一個(gè)邊界框內(nèi)的點(diǎn)
  • 通過最遠(yuǎn)點(diǎn)采樣(FPS)對點(diǎn)進(jìn)行降采樣,這有助于充分覆蓋 3D 空間,并減少了點(diǎn)云采樣的隨機(jī)性
  • 將點(diǎn)云降采樣至 512 或 1024 個(gè)點(diǎn)
Encoding point clouds into compact representations(將點(diǎn)云編碼為緊湊的表示)

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

使用輕量級(jí)MLP網(wǎng)絡(luò)將點(diǎn)云編碼為緊湊的3D表示

Decision

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

Conditional action generation(條件動(dòng)作生成)
  • 該模型在三維視覺特征和機(jī)器人姿態(tài) q 的條件下,將隨機(jī)高斯噪聲降噪為動(dòng)作 a 。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

Training objective(loss損失):
  • 訓(xùn)練目標(biāo)是預(yù)測添加到原始數(shù)據(jù)中的噪聲

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

Implementation details(實(shí)現(xiàn)細(xì)節(jié))
  • 使用基于卷積網(wǎng)絡(luò)的擴(kuò)散策略
  • 使用 DDIM 作為噪聲調(diào)度器,并使用樣本預(yù)測代替epsilon預(yù)測來更好地生成高維動(dòng)作,訓(xùn)練時(shí)使用100個(gè)時(shí)間步,推理時(shí)使用10個(gè)時(shí)間步
  • DP3和所有基線訓(xùn)練了3000個(gè)epoch,批大小為128,以確保所有任務(wù)的收斂性。

實(shí)驗(yàn)

Simulation benchmark

仿真與現(xiàn)實(shí)場景之間仍然存在顯著差距

(1)真實(shí)機(jī)器人實(shí)驗(yàn)的重要性

(2)大規(guī)模多樣化模擬任務(wù)的必要性 收集了7個(gè)領(lǐng)域的72個(gè)任務(wù),涵蓋了不同的機(jī)器人技能,(雙手動(dòng)操作、可變形對象操作、鉸接對象操作、平行抓手操作)

Expert demonstrations:(這個(gè)地方?jīng)]看懂,就直接全翻譯過來,大家自己看吧....)

專家演示是由強(qiáng)化學(xué)習(xí)(RL)

  • 算法訓(xùn)練的代理收集的,適用于除了 DexDeform 外的所有領(lǐng)域,其中我們使用人類遠(yuǎn)程操作的數(shù)據(jù)。
  • 對于 Adroit,我們使用 VRL3 [67];
  • 對于 MetaWorld,我們使用 BAC [29];
  • 對于所有其他領(lǐng)域,我們使用 PPO [54]。
  • 我們使用 RL 代理生成成功軌跡,并確保所有模仿學(xué)習(xí)算法使用相同的演示。

Baselines

  • 這項(xiàng)工作的主要重點(diǎn)是強(qiáng)調(diào)3D模式在擴(kuò)散政策中的重要性。
  • baseline是于圖像的擴(kuò)散策略,簡稱為擴(kuò)散策略

Evaluation metric:

????????對每個(gè)實(shí)驗(yàn)使用seeds號(hào)為 0、1、2 運(yùn)行 3 個(gè)seeds。對于每個(gè)seeds,我們在每 200 個(gè)訓(xùn)練epochs次評估 20 個(gè) episode,然后計(jì)算最高的 5 個(gè)成功率的平均值。我們報(bào)告了在 3 個(gè)seeds上成功率的平均值標(biāo)準(zhǔn)差。

Efficiency and Effectiveness

在以下三個(gè)方面DP3表現(xiàn)出驚人的效率:

(1) High accuracy
  • DP3在近30個(gè)任務(wù)中實(shí)現(xiàn)了超過90%的成功率
  • 擴(kuò)散策略在不到15個(gè)任務(wù)中實(shí)現(xiàn)了超過90%的成功率
  • DP3沒有記錄任何成功率低于10%的任務(wù)
  • 擴(kuò)散策略有超過10個(gè)成功率低于10%的任務(wù)

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

(2) Learning efficiency

雖然每個(gè)任務(wù)都訓(xùn)練了3000個(gè)epoch,但是觀察發(fā)現(xiàn)DP3在所有任務(wù)大概300 epoch已經(jīng)達(dá)到收斂 相反,擴(kuò)散策略傾向于以慢得多的速度收斂或收斂到次優(yōu)結(jié)果。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

(3)?Efficient scaling with demonstrations
  • 在Adroit任務(wù)中,DP3和擴(kuò)散策略都執(zhí)行合理,而DP3在較少的演示中達(dá)到了相當(dāng)?shù)木取?/li>
  • 在簡單的MetaWorld任務(wù)中,即使演示次數(shù)增加,擴(kuò)散策略也無法學(xué)習(xí),明顯落后于DP3

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

(4)?Competitive inference speed

????????DP3實(shí)現(xiàn)的推理速度略微超過擴(kuò)散策略,這主要?dú)w功于使用稀疏點(diǎn)云和緊湊的3D表示。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

消融實(shí)驗(yàn)

選擇了6個(gè)任務(wù)進(jìn)行消融實(shí)驗(yàn):

????????Adroit [ Hammer (H), Door (D), Pen (P) ];

????????MetaWorld [ Assembly (A), Basketball (B), Shelf Place (S) ]

這些任務(wù)包括高維和低維控制任務(wù),每個(gè)任務(wù)只使用10個(gè)演示

實(shí)驗(yàn)1:不同表示之間的對DP3的影響

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

實(shí)驗(yàn)2:point cloud 編碼器選擇

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

實(shí)驗(yàn)3:DP3設(shè)計(jì)

(a) 對點(diǎn)云進(jìn)行裁剪在很大程度上提高了準(zhǔn)確性;

(b) 整合 LayerNorm 層可以幫助穩(wěn)定不同任務(wù)之間的訓(xùn)練;

(c) 在噪聲采樣器中進(jìn)行樣本預(yù)測可以加快收斂速度;

(d) DP3 編碼器中的投影頭通過將特征投影到較低維度加速了推斷,而不會(huì)影響準(zhǔn)確性;

(e) 移除顏色通道確保了魯棒的外觀泛化;

(f) 在低維控制任務(wù)中,作為噪聲采樣器的 DPM-solver++ 與 DDIM 競爭力相當(dāng),而 DPMsolver++ 不能很好地處理高維控制任務(wù)。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

實(shí)驗(yàn)4:Training policies on demonstrations from different experts.

????????我們希望研究專家的行為方式是否會(huì)影響模仿學(xué)習(xí)方法的性能。為此,我們分別在 MetaWorld 任務(wù)中使用 RL 訓(xùn)練的代理和腳本策略生成演示,并在這些演示上進(jìn)行訓(xùn)練。我們可以觀察到,一個(gè)更好的專家通常能夠幫助使用模仿學(xué)習(xí)算法訓(xùn)練出更好的策略,但 DP3 與地面真值專家之間仍然存在差距。

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

實(shí)驗(yàn)5:不同的圖片分辨率對擴(kuò)散策略的影響

《3D Diffusion Policy》論文閱讀,論文閱讀,筆記

真實(shí)場景實(shí)驗(yàn)可以之間看論文,這里就不針對該章節(jié),進(jìn)行詳細(xì)描述了

結(jié)論

  • 介紹了 3D Diffusion Policy(DP3),這是一種高效的視覺模仿學(xué)習(xí)算法,使用少量示范就能夠在模擬和真實(shí)環(huán)境中管理各種機(jī)器人任務(wù)。
  • DP3 的核心在于將精心設(shè)計(jì)的 3D 表示與擴(kuò)散策略的表現(xiàn)力相結(jié)合。
  • 在 72 個(gè)模擬任務(wù)中,DP3 的表現(xiàn)優(yōu)于其 2D 對應(yīng)物,相對邊際提高了 55.3%。
  • 在真實(shí)環(huán)境中,DP3 在使用 Allegro 手執(zhí)行可變形物體的復(fù)雜操作時(shí)表現(xiàn)出高準(zhǔn)確性。
  • 證明了 DP3 具有對各個(gè)方面的強(qiáng)大泛化能力,并在真實(shí)環(huán)境中造成的安全違規(guī)較少。

局限

????????盡管已經(jīng)開發(fā)了一種高效的架構(gòu),但控制的最佳 3D 表示仍然有待發(fā)現(xiàn)。此外,本文未深入探討具有極長視角的任務(wù),這留給未來的探索。(未來繼續(xù)加油)

---------------------------------------------------------------------------------------------------------------------------------

論文地址:
https://arxiv.org/abs/2403.03954

Github:(作者的github寫的非常詳細(xì),常見錯(cuò)誤的解決方法都寫出來了)

GitHub - YanjieZe/3D-Diffusion-Policy: [arXiv 2024] 3D Diffusion Policy

項(xiàng)目地址:

3D Diffusion Policy文章來源地址http://www.zghlxwxcb.cn/news/detail-847867.html

到了這里,關(guān)于《3D Diffusion Policy》論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • DREAMFUSION TEXT-TO-3D USING 2D DIFFUSION 論文筆記

    DREAMFUSION TEXT-TO-3D USING 2D DIFFUSION 論文筆記

    Recent breakthroughs in text-to-image synthesis have been driven by diffusion models trained on billions of image-text pairs. Adapting this approach to 3D synthe- sis would require large-scale datasets of labeled 3D data and efficient architectures for denoising 3D data, neither of which currently exist. In this work, we circum- vent these limitations by usi

    2024年02月07日
    瀏覽(22)
  • A Closer Look at Invalid Action Masking in Policy Gradient Algorithms 論文閱讀

    原文鏈接:http://arxiv.org/abs/2006.14171 這篇文章證明了無效動(dòng)作掩蔽可以看作是在計(jì)算動(dòng)作概率分布時(shí)應(yīng)用狀態(tài)相關(guān)的可微函數(shù)來產(chǎn)生行為策略。接下來,設(shè)計(jì)了實(shí)驗(yàn)來比較無效動(dòng)作掩飾和無效動(dòng)作懲罰的性能。 無效動(dòng)作懲罰:這是一種常見的方法,對無效動(dòng)作給予負(fù)獎(jiǎng)勵(lì),以

    2024年03月14日
    瀏覽(24)
  • 【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【開源】 本文提出的SAM3D模型是針對三維體積醫(yī)學(xué)圖像分割的一種新方法。其核心在于將“分割任何事物”(SAM)模型的預(yù)訓(xùn)練編碼器與一個(gè)輕量級(jí)的3D解碼器相結(jié)合。與

    2024年01月20日
    瀏覽(32)
  • 論文閱讀筆記《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    論文閱讀筆記《FLEX: Extrinsic Parameters-free Multi-view 3D Human Motion Reconstruction》

    1.簡介 在3D人體姿態(tài)估計(jì)中存在遮擋和模糊問題,使用多相機(jī)可能會(huì)緩解這些困難,因?yàn)椴煌囊暯强梢匝a(bǔ)償這些遮擋并用于相互一致性。目前的3D人體姿態(tài)估計(jì)中大多數(shù)都是單視角的,有一部分是多視角的,但是他們的方法依賴于相機(jī)之間的相對位置,這要用到相機(jī)的外參。

    2024年02月04日
    瀏覽(31)
  • 【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    【論文筆記】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文鏈接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪擴(kuò)散模型的技術(shù),提出完全可微的雷達(dá)-相機(jī)框架。使用校準(zhǔn)矩陣將雷達(dá)點(diǎn)云投影到圖像上后,在特征編碼器和BEV下的Transformer檢測解碼器中

    2024年01月18日
    瀏覽(27)
  • 【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    【論文閱讀筆記】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS

    這篇文章提出了一個(gè)高效的用于文本到圖像生成模型架構(gòu),整體思路比較直白,在不損失圖像生成質(zhì)量的情況下,相比于現(xiàn)有T2I模型(SD1.4,SD2.1等)大大節(jié)約了成本。附錄部分給了一些有趣的東西,比如FID的魯棒性 整篇文章還有點(diǎn)疑惑,比如階段B的訓(xùn)練,使用的模型;節(jié)省

    2024年02月21日
    瀏覽(24)
  • [論文筆記] chatgpt——PPO算法(Proximal Policy Optimization)

    [論文筆記] chatgpt——PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO) ????????避免較多的策略更新。 根據(jù)經(jīng)驗(yàn),訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。 在策略更新中,太大的一步可能會(huì)導(dǎo)致“掉下懸崖”(得到一個(gè)糟糕的策略),并且有很長時(shí)間甚至沒有可能恢復(fù)。 ????????所以在PPO中,我們

    2024年02月01日
    瀏覽(45)
  • 【論文筆記】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    【論文筆記】SVDM: Single-View Diffusion Model for Pseudo-Stereo 3D Object Detection

    原文鏈接:https://arxiv.org/abs/2307.02270 ??目前的從單目相機(jī)生成偽傳感器表達(dá)的方法依賴預(yù)訓(xùn)練的深度估計(jì)網(wǎng)絡(luò)。這些方法需要深度標(biāo)簽來訓(xùn)練深度估計(jì)網(wǎng)絡(luò),且偽立體方法通過圖像正向變形合成立體圖像,會(huì)導(dǎo)致遮擋區(qū)域的像素偽影、扭曲、孔洞。此外,特征級(jí)別的偽立體

    2024年02月08日
    瀏覽(22)
  • [論文筆記] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    [論文筆記] chatgpt系列 1.1 PPO算法(Proximal Policy Optimization)

    Proximal Policy Optimization (PPO) ????????避免較多的策略更新。 根據(jù)經(jīng)驗(yàn),訓(xùn)練期間較小的策略更新更有可能收斂到最優(yōu)解決方案。 在策略更新中,太大的一步可能會(huì)導(dǎo)致“掉下懸崖”(得到一個(gè)糟糕的策略),并且有很長時(shí)間甚至沒有可能恢復(fù)。 ????????所以在PPO中,我們

    2024年02月03日
    瀏覽(22)
  • Latent Diffusion(CVPR2022 oral)-論文閱讀

    Latent Diffusion(CVPR2022 oral)-論文閱讀

    論文: 《High-Resolution Image Synthesis with Latent Diffusion Models》 github: https://github.com/CompVis/latent-diffusion 為了使得DM在有限計(jì)算資源下訓(xùn)練,同時(shí)保留其生成質(zhì)量及靈活性,作者將其應(yīng)用于預(yù)訓(xùn)練編解碼器的隱空間?;诒碚饔?xùn)練擴(kuò)散模型達(dá)到降低計(jì)算量及細(xì)節(jié)保留的最優(yōu)點(diǎn)。作者

    2024年02月11日
    瀏覽(95)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包