英偉達宣布最新強化學習研究成果
發布時間:2019-05-28 09:32:06
近日,來自華盛頓州西雅圖新開設的機器人研究實驗室的NVIDIA研究人員正在展示一種新的概念強化學習方法,旨在提高在仿真模擬中訓練的機器人在真實世界中的表現。該項成果將在加拿大蒙特利爾舉行的國際機器人與自動化會議(ICRA)上發表。
該研究是基于模擬訓練的深度學習和機器人社區發展趨勢的一部分。由于該方法是虛擬的,因此不存在損壞或傷害的風險,允許機器人在部署到現實世界之前,進行無限次可能地訓練。
有一種描述模型訓練的方式,是把它比作宇航員在地球上訓練如何在太空中執行關鍵性任務。宇航員學習如何適應太空旅行中的無重力狀態,排練并練習任務的各個步驟,學習如何在太空中完美地執行這些復雜的操作。在模擬過程中,強化學習所做的與此類似,只不過是通過機器人來進行的。
“在機器人領域,你通常希望能在模擬中訓練,因為你可以涵蓋在真實世界中很難獲得數據的各種場景,” 該項目的主要研究人員之一說。 “這項工作背后的想法是訓練機器人在模擬器中做一些在現實生活中既單調又耗時的事情。
研究人員認為,強化學習機器人社區面臨的挑戰之一是真實世界和模擬器之間的差異。
研究人員在論文中指出:“由于仿真模型不精確,缺乏對真實世界場景的高保真復制,在模擬中學習到的策略通常不能直接應用于真實世界系統,這一現象也稱為現實差距?!?/span>
“在這項工作中,我們的重點是通過學習分布在模擬場景上的策略來縮小現實差距,這些模擬場景經過優化能夠實現更好的策略遷移?!?/span>
“我們并非手動調整模擬的隨機化,而是使用與策略訓練交錯的真實世界的交付來調整模擬參數分布?!? 研究人員說?!拔覀儗嶋H上是在模擬器中創建現實世界的復制品?!?/span>
研究人員使用64臺NVIDIA Tesla V100 GPU的集群,以及cuDNN加速的TensorFlow深度學習框架,訓練機器人執行兩項任務:將一個釘子插入孔里,以及打開一個抽屜。
在模擬過程中,團隊使用NVIDIA FleX物理引擎來模擬和開發本研究中描述的SimOpt算法。
為了完成這兩項任務,機器人通過大約1.5-2小時內的超過9600次的模擬進行學習。
目標抽屜開放環境中的策略性能,通過在SimOpt的不同迭代中的隨機模擬參數進行訓練。隨著源環境分布的調整,策略遷移得到改善,直到機器人能夠在第四次SimOpt迭代中成功完成任務。
研究人員表示,“將模擬與現實遷移環路相結合,是機器人策略實現強大遷移能力的重要組成部分”。 “在這項工作中,我們證明了使用真實世界數據調整模擬隨機化有助于學習模擬參數分布,這些分布特別適合成功的策略遷移,而無需精確復制真實世界環境。”
在SimOpt的不同迭代中運行在模擬訓練中的策略,以實現在真實世界里將釘子插孔和抽屜打開的任務。左:SimOpt調整軟繩、釘和機器人的物理參數分布,經過兩次SimOpt迭代后在真實機器人上成功執行任務。右:SimOpt調整機器人和抽屜的物理參數分布。在更新參數之前,機器人用一個手指在抽屜把手上用力過猛,導致抓取器的手爪打開。經過一次SimOpt迭代后,機器人可以更好地控制其抓取器的方向,從而實現準確地執行任務。