仿真環(huán)境的采樣速度慢,是強化學習的一個瓶頸。例如,論文中常用的 MuJoCo 環(huán)境,臺式機或服務器的 CPU 上運行仿真環(huán)境,一小時大概采集十萬或百萬步(1e5 或 1e6 步);訓練一個智能體(收斂后)需要十多個小時。
加快仿真環(huán)境的采樣速度,通常有以下方法:
- 增加并行的 Worker 數(shù)(Multiple workers)
- 增加并行的 Env 數(shù)(Vectorized Env)
NVIDIA 的 Isaac Gym(上圖中右下角),用單塊 GPU 一小時內可以采集一億步(1e8 步)。也就是說,GPU 上的并行仿真環(huán)境,采樣速度快了兩個量級! 下圖是我們的一組測試結果
Isaac Gym 的命名根據(jù) Isaac Newton 艾薩克 · 牛頓
文章來源:http://www.zghlxwxcb.cn/news/detail-560038.html
左圖以采樣數(shù) #samples 為橫坐標,右圖以訓練時間 (hours) 為橫坐標。上圖中可以看到,GPU 并行仿真環(huán)境在一文章來源地址http://www.zghlxwxcb.cn/news/detail-560038.html
到了這里,關于并行環(huán)境讓采樣速度快兩個量級:Isaac Gym提速強化學習的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!