本文僅是個(gè)人對該文章的閱讀總結(jié),并不能全篇概括作者的精華,還需大家詳細(xì)閱讀原文
---------------------------------------------------------------------------------------------------------------------------------
摘要
問題:模仿學(xué)習(xí)為教授機(jī)器人靈巧技能提供了一種高效途徑,但是學(xué)習(xí)復(fù)雜的、具有普適性的技能通常需要大量的人類示范
解決:3D擴(kuò)散策略(DP3)將3D視覺表示的強(qiáng)大之處融入到擴(kuò)散策略中,這是一類有條件的動(dòng)作生成模型。
核心:利用高效的點(diǎn)編碼器從稀疏點(diǎn)云中提取緊湊的3D視覺表示。
取得成果:
(1)在涉及 72 個(gè)模擬任務(wù)的實(shí)驗(yàn)中,DP3僅使用 10 個(gè)示范就成功處理了大多數(shù)任務(wù),并且相對于基線方法取得了 55.3% 的相對改進(jìn)。
(2)在 4 個(gè)真實(shí)機(jī)器人任務(wù)中,DP3僅使用每個(gè)任務(wù) 40 個(gè)示范就展示了精確控制,成功率高達(dá) 85%,并且在空間、視點(diǎn)、外觀和實(shí)例等多個(gè)方面展現(xiàn)了出色的泛化能力。
(3)DP3很少違反安全要求。
方法
問題定義:
????????????????視覺運(yùn)動(dòng)策略 π : O ?→? A
????????????????視覺觀察 o ∈ O?
????????????????動(dòng)作 a ∈ A
DP3組成:
(1)Perception:DP3利用點(diǎn)云數(shù)據(jù)感知環(huán)境,并利用高效的點(diǎn)編碼器將這些視覺觀測結(jié)果處理成視覺特征;
(2)Decision:DP3利用了expressive Diffusion Policy 作為動(dòng)作生成的支干,該策略根據(jù)我們的3D視覺特征生成動(dòng)作序列。
A Motivating Example
證明DP3的泛化能力:
? ? ? ? 目標(biāo):讓手持器準(zhǔn)確的到達(dá)指定目標(biāo)點(diǎn)
????????為了評估模仿學(xué)習(xí)算法不僅適應(yīng)訓(xùn)練數(shù)據(jù)的有效性,還要泛化到新場景的能力,在3D空間中可視化了?訓(xùn)練點(diǎn)和?成功評估點(diǎn)
僅用五個(gè)訓(xùn)練點(diǎn),DP3就能到達(dá)分布在3D空間中的點(diǎn),展示了DP3在數(shù)據(jù)有限的情況下的優(yōu)越泛化能力和效率。
Perception
DP3側(cè)重于僅使用單視圖攝像機(jī)對所有任務(wù)進(jìn)行策略學(xué)習(xí)。
Representing 3D scenes with point clouds(點(diǎn)云表示)
- DP3采用稀疏點(diǎn)云作為三維表示,因?yàn)榕c(RGB-D、深度和體素)相比,點(diǎn)云更有效。
- 對于模擬和現(xiàn)實(shí)世界,從單個(gè)相機(jī)獲得大小為84 × 84的深度圖像。然后,使用相機(jī)外參和內(nèi)參將深度轉(zhuǎn)換為點(diǎn)云。為了獲得更好的外觀泛化效果,不使用彩色通道。
Point cloud processing(點(diǎn)云處理)
- 由于從深度轉(zhuǎn)換而來的點(diǎn)云可能包含冗余點(diǎn),因此需要裁剪掉這些點(diǎn),僅保留在一個(gè)邊界框內(nèi)的點(diǎn)
- 通過最遠(yuǎn)點(diǎn)采樣(FPS)對點(diǎn)進(jìn)行降采樣,這有助于充分覆蓋 3D 空間,并減少了點(diǎn)云采樣的隨機(jī)性
- 將點(diǎn)云降采樣至 512 或 1024 個(gè)點(diǎn)
Encoding point clouds into compact representations(將點(diǎn)云編碼為緊湊的表示)
使用輕量級(jí)MLP網(wǎng)絡(luò)將點(diǎn)云編碼為緊湊的3D表示
Decision
Conditional action generation(條件動(dòng)作生成)
- 該模型在三維視覺特征和機(jī)器人姿態(tài) q 的條件下,將隨機(jī)高斯噪聲降噪為動(dòng)作 a 。
Training objective(loss損失):
- 訓(xùn)練目標(biāo)是預(yù)測添加到原始數(shù)據(jù)中的噪聲
Implementation details(實(shí)現(xiàn)細(xì)節(jié))
- 使用基于卷積網(wǎng)絡(luò)的擴(kuò)散策略
- 使用 DDIM 作為噪聲調(diào)度器,并使用樣本預(yù)測代替epsilon預(yù)測來更好地生成高維動(dòng)作,訓(xùn)練時(shí)使用100個(gè)時(shí)間步,推理時(shí)使用10個(gè)時(shí)間步
- DP3和所有基線訓(xùn)練了3000個(gè)epoch,批大小為128,以確保所有任務(wù)的收斂性。
實(shí)驗(yàn)
Simulation benchmark
仿真與現(xiàn)實(shí)場景之間仍然存在顯著差距
(1)真實(shí)機(jī)器人實(shí)驗(yàn)的重要性
(2)大規(guī)模多樣化模擬任務(wù)的必要性 收集了7個(gè)領(lǐng)域的72個(gè)任務(wù),涵蓋了不同的機(jī)器人技能,(雙手動(dòng)操作、可變形對象操作、鉸接對象操作、平行抓手操作)
Expert demonstrations:(這個(gè)地方?jīng)]看懂,就直接全翻譯過來,大家自己看吧....)
專家演示是由強(qiáng)化學(xué)習(xí)(RL)
- 算法訓(xùn)練的代理收集的,適用于除了 DexDeform 外的所有領(lǐng)域,其中我們使用人類遠(yuǎn)程操作的數(shù)據(jù)。
- 對于 Adroit,我們使用 VRL3 [67];
- 對于 MetaWorld,我們使用 BAC [29];
- 對于所有其他領(lǐng)域,我們使用 PPO [54]。
- 我們使用 RL 代理生成成功軌跡,并確保所有模仿學(xué)習(xí)算法使用相同的演示。
Baselines
- 這項(xiàng)工作的主要重點(diǎn)是強(qiáng)調(diào)3D模式在擴(kuò)散政策中的重要性。
- baseline是于圖像的擴(kuò)散策略,簡稱為擴(kuò)散策略
Evaluation metric:
????????對每個(gè)實(shí)驗(yàn)使用seeds號(hào)為 0、1、2 運(yùn)行 3 個(gè)seeds。對于每個(gè)seeds,我們在每 200 個(gè)訓(xùn)練epochs次評估 20 個(gè) episode,然后計(jì)算最高的 5 個(gè)成功率的平均值。我們報(bào)告了在 3 個(gè)seeds上成功率的平均值和標(biāo)準(zhǔn)差。
Efficiency and Effectiveness
在以下三個(gè)方面DP3表現(xiàn)出驚人的效率:
(1) High accuracy
- DP3在近30個(gè)任務(wù)中實(shí)現(xiàn)了超過90%的成功率
- 擴(kuò)散策略在不到15個(gè)任務(wù)中實(shí)現(xiàn)了超過90%的成功率
- DP3沒有記錄任何成功率低于10%的任務(wù)
- 擴(kuò)散策略有超過10個(gè)成功率低于10%的任務(wù)
(2) Learning efficiency
雖然每個(gè)任務(wù)都訓(xùn)練了3000個(gè)epoch,但是觀察發(fā)現(xiàn)DP3在所有任務(wù)大概300 epoch已經(jīng)達(dá)到收斂 相反,擴(kuò)散策略傾向于以慢得多的速度收斂或收斂到次優(yōu)結(jié)果。
(3)?Efficient scaling with demonstrations
- 在Adroit任務(wù)中,DP3和擴(kuò)散策略都執(zhí)行合理,而DP3在較少的演示中達(dá)到了相當(dāng)?shù)木取?/li>
- 在簡單的MetaWorld任務(wù)中,即使演示次數(shù)增加,擴(kuò)散策略也無法學(xué)習(xí),明顯落后于DP3
(4)?Competitive inference speed
????????DP3實(shí)現(xiàn)的推理速度略微超過擴(kuò)散策略,這主要?dú)w功于使用稀疏點(diǎn)云和緊湊的3D表示。
消融實(shí)驗(yàn)
選擇了6個(gè)任務(wù)進(jìn)行消融實(shí)驗(yàn):
????????Adroit [ Hammer (H), Door (D), Pen (P) ];
????????MetaWorld [ Assembly (A), Basketball (B), Shelf Place (S) ]
這些任務(wù)包括高維和低維控制任務(wù),每個(gè)任務(wù)只使用10個(gè)演示
實(shí)驗(yàn)1:不同表示之間的對DP3的影響
實(shí)驗(yàn)2:point cloud 編碼器選擇
實(shí)驗(yàn)3:DP3設(shè)計(jì)
(a) 對點(diǎn)云進(jìn)行裁剪在很大程度上提高了準(zhǔn)確性;
(b) 整合 LayerNorm 層可以幫助穩(wěn)定不同任務(wù)之間的訓(xùn)練;
(c) 在噪聲采樣器中進(jìn)行樣本預(yù)測可以加快收斂速度;
(d) DP3 編碼器中的投影頭通過將特征投影到較低維度加速了推斷,而不會(huì)影響準(zhǔn)確性;
(e) 移除顏色通道確保了魯棒的外觀泛化;
(f) 在低維控制任務(wù)中,作為噪聲采樣器的 DPM-solver++ 與 DDIM 競爭力相當(dāng),而 DPMsolver++ 不能很好地處理高維控制任務(wù)。
實(shí)驗(yàn)4:Training policies on demonstrations from different experts.
????????我們希望研究專家的行為方式是否會(huì)影響模仿學(xué)習(xí)方法的性能。為此,我們分別在 MetaWorld 任務(wù)中使用 RL 訓(xùn)練的代理和腳本策略生成演示,并在這些演示上進(jìn)行訓(xùn)練。我們可以觀察到,一個(gè)更好的專家通常能夠幫助使用模仿學(xué)習(xí)算法訓(xùn)練出更好的策略,但 DP3 與地面真值專家之間仍然存在差距。
實(shí)驗(yàn)5:不同的圖片分辨率對擴(kuò)散策略的影響
真實(shí)場景實(shí)驗(yàn)可以之間看論文,這里就不針對該章節(jié),進(jìn)行詳細(xì)描述了
結(jié)論
- 介紹了 3D Diffusion Policy(DP3),這是一種高效的視覺模仿學(xué)習(xí)算法,使用少量示范就能夠在模擬和真實(shí)環(huán)境中管理各種機(jī)器人任務(wù)。
- DP3 的核心在于將精心設(shè)計(jì)的 3D 表示與擴(kuò)散策略的表現(xiàn)力相結(jié)合。
- 在 72 個(gè)模擬任務(wù)中,DP3 的表現(xiàn)優(yōu)于其 2D 對應(yīng)物,相對邊際提高了 55.3%。
- 在真實(shí)環(huán)境中,DP3 在使用 Allegro 手執(zhí)行可變形物體的復(fù)雜操作時(shí)表現(xiàn)出高準(zhǔn)確性。
- 證明了 DP3 具有對各個(gè)方面的強(qiáng)大泛化能力,并在真實(shí)環(huán)境中造成的安全違規(guī)較少。
局限
????????盡管已經(jīng)開發(fā)了一種高效的架構(gòu),但控制的最佳 3D 表示仍然有待發(fā)現(xiàn)。此外,本文未深入探討具有極長視角的任務(wù),這留給未來的探索。(未來繼續(xù)加油)
---------------------------------------------------------------------------------------------------------------------------------
論文地址:
https://arxiv.org/abs/2403.03954
Github:(作者的github寫的非常詳細(xì),常見錯(cuò)誤的解決方法都寫出來了)
GitHub - YanjieZe/3D-Diffusion-Policy: [arXiv 2024] 3D Diffusion Policy
項(xiàng)目地址:文章來源:http://www.zghlxwxcb.cn/news/detail-847867.html
3D Diffusion Policy文章來源地址http://www.zghlxwxcb.cn/news/detail-847867.html
到了這里,關(guān)于《3D Diffusion Policy》論文閱讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!