VINN | Diffusion Policy | ACT | |
---|---|---|---|
核心思想 | 1.從離線數據中自監督學習獲得一個視覺編碼器;2.基于視覺編碼器,從采集的示例操作數據中檢索與當前觀測圖像最相似的N張圖像以及對應的動作;3.基于圖像編碼器的距離對各個動作進行加權平均,獲得最終的動作 | 1.關注動作輸出端而不是輸入端;2.預測的是動作概率,而不是確定性的動作 | 1.使用基于Transformer架構的生成式模型(conditional variational autoencoder (CVAE))來生成動作;2.生成未來一段時間的動作而不是下一步動作,降低復合累計誤差;3.使用Temporal Ensemble提高動作光滑度 |
動作 | 相機位姿+夾爪閉合 | 機械臂末端位姿 | 遙操作手臂的關節位置和夾爪閉合 |
觀測 | 機械臂上第一視角圖像 | 連續多幀第三視角觀測圖像 | 抓取物體機械臂的當前關節位置和第三視角四張觀測圖像 |
網絡預測結果 | 觀測圖像編碼向量,通過相似度匹配間接計算下一時刻動作 | 未來一系列時刻的動作 | 未來一系列時刻的動作 |
解決的挑戰及對應方法 | 端到端學習將視覺表征學習和動作生成耦合在一起,需要大量數據:將視覺表征學習和動作生成解耦; | 1.機器人動作MultiModal的問題(解決某一特定任務的方式是多樣的,但神經網絡預測只能給出單一的方式,無法應對可能有多種方式的任務情況); 2.可很好在高維空間預測未來多步動作;3.訓練過程通過建模成去噪過程,訓練非常穩定。 | 1.降低復合累計誤差(compounding errors):使用action chunking;2.提高動作光滑度:采用Temporal Ensemble; 3.克服人類示教的噪聲:使用基于Transformer編碼-解碼架構的生成式方法來訓練 |
局限性和未來展望 | 局限性: 對新場景泛化性不佳; 訓練的模型只能執行單任務;只用任務相關的數據進行預訓練,性能不夠好。未來展望: 利用持續表征學習來提升泛化性;使用更大規模任務不相關數據來進行預訓練,提升性能;多任務學習。 | 局限性: 繼承了行為克隆的缺點,如泛化性不夠;算力消耗大,推理時延高;未來展望: 采用強化學習來克服行為克隆的缺點;借鑒diffusion模型的加速方法 | 失敗動作: 打開糖果,將平躺的封口包包打開,需要多指操作的任務,分析原因在于這類示教數據難以獲得,感知很難,夾爪硬件限制。 未來展望: 使用更多數據進行預訓練,從軟硬件提升感知能力。 |