Mobile ALOHA前傳之VINN, Diffusion Policy和ACT對比

VINNDiffusion PolicyACT
核心思想1.從離線數據中自監督學習獲得一個視覺編碼器；2.基于視覺編碼器，從采集的示例操作數據中檢索與當前觀測圖像最相似的N張圖像以及對應的動作；3.基于圖像編碼器的距離對各個動作進行加權平均，獲得最終的動作1.關注動作輸出端而不是輸入端；2.預測的是動作概率，而不是確定性的動作1.使用基于Transformer架構的生成式模型（conditional variational autoencoder (CVAE)）來生成動作；2.生成未來一段時間的動作而不是下一步動作，降低復合累計誤差；3.使用Temporal Ensemble提高動作光滑度
動作相機位姿+夾爪閉合機械臂末端位姿遙操作手臂的關節位置和夾爪閉合
觀測機械臂上第一視角圖像連續多幀第三視角觀測圖像抓取物體機械臂的當前關節位置和第三視角四張觀測圖像
網絡預測結果觀測圖像編碼向量，通過相似度匹配間接計算下一時刻動作未來一系列時刻的動作未來一系列時刻的動作
解決的挑戰及對應方法端到端學習將視覺表征學習和動作生成耦合在一起，需要大量數據：將視覺表征學習和動作生成解耦；1.機器人動作MultiModal的問題(解決某一特定任務的方式是多樣的，但神經網絡預測只能給出單一的方式，無法應對可能有多種方式的任務情況); 2.可很好在高維空間預測未來多步動作；3.訓練過程通過建模成去噪過程，訓練非常穩定。1.降低復合累計誤差(compounding errors)：使用action chunking;2.提高動作光滑度：采用Temporal Ensemble; 3.克服人類示教的噪聲：使用基于Transformer編碼-解碼架構的生成式方法來訓練
局限性和未來展望局限性： 對新場景泛化性不佳； 訓練的模型只能執行單任務；只用任務相關的數據進行預訓練，性能不夠好。未來展望： 利用持續表征學習來提升泛化性；使用更大規模任務不相關數據來進行預訓練，提升性能；多任務學習。局限性： 繼承了行為克隆的缺點，如泛化性不夠；算力消耗大，推理時延高；未來展望： 采用強化學習來克服行為克隆的缺點；借鑒diffusion模型的加速方法失敗動作： 打開糖果，將平躺的封口包包打開，需要多指操作的任務，分析原因在于這類示教數據難以獲得，感知很難，夾爪硬件限制。 未來展望： 使用更多數據進行預訓練，從軟硬件提升感知能力。

	VINN	Diffusion Policy	ACT
核心思想	1.從離線數據中自監督學習獲得一個視覺編碼器；2.基于視覺編碼器，從采集的示例操作數據中檢索與當前觀測圖像最相似的N張圖像以及對應的動作；3.基于圖像編碼器的距離對各個動作進行加權平均，獲得最終的動作	1.關注動作輸出端而不是輸入端；2.預測的是動作概率，而不是確定性的動作	1.使用基于Transformer架構的生成式模型（conditional variational autoencoder (CVAE)）來生成動作；2.生成未來一段時間的動作而不是下一步動作，降低復合累計誤差；3.使用Temporal Ensemble提高動作光滑度
動作	相機位姿+夾爪閉合	機械臂末端位姿	遙操作手臂的關節位置和夾爪閉合
觀測	機械臂上第一視角圖像	連續多幀第三視角觀測圖像	抓取物體機械臂的當前關節位置和第三視角四張觀測圖像
網絡預測結果	觀測圖像編碼向量，通過相似度匹配間接計算下一時刻動作	未來一系列時刻的動作	未來一系列時刻的動作
解決的挑戰及對應方法	端到端學習將視覺表征學習和動作生成耦合在一起，需要大量數據：將視覺表征學習和動作生成解耦；	1.機器人動作MultiModal的問題(解決某一特定任務的方式是多樣的，但神經網絡預測只能給出單一的方式，無法應對可能有多種方式的任務情況); 2.可很好在高維空間預測未來多步動作；3.訓練過程通過建模成去噪過程，訓練非常穩定。	1.降低復合累計誤差(compounding errors)：使用action chunking;2.提高動作光滑度：采用Temporal Ensemble; 3.克服人類示教的噪聲：使用基于Transformer編碼-解碼架構的生成式方法來訓練
局限性和未來展望	局限性：對新場景泛化性不佳；訓練的模型只能執行單任務；只用任務相關的數據進行預訓練，性能不夠好。未來展望：利用持續表征學習來提升泛化性；使用更大規模任務不相關數據來進行預訓練，提升性能；多任務學習。	局限性：繼承了行為克隆的缺點，如泛化性不夠；算力消耗大，推理時延高；未來展望：采用強化學習來克服行為克隆的缺點；借鑒diffusion模型的加速方法	失敗動作：打開糖果，將平躺的封口包包打開，需要多指操作的任務，分析原因在于這類示教數據難以獲得，感知很難，夾爪硬件限制。未來展望：使用更多數據進行預訓練，從軟硬件提升感知能力。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/42770.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/42770.shtml
英文地址，請注明出處：http://en.pswp.cn/web/42770.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！