Deep Reinforcement Learning for Robotics翻譯解讀

在這里插入圖片描述

a. 機器人能力

1 單機器人能力（Single-robot competencies）

運動能力（Mobility）
- 行走（Locomotion）
- 導航（Navigation）
操作能力（Manipulation）
- 靜態操作（Stationary manipulation）
- 移動操作（Mobile manipulation_MoMa）：將運動與操作結合

2 人機交互（Human–robot interaction）：機器人與人類實時協作、交流
3 多機器人交互（Multirobot interaction）：多個機器人之間的協同

b. 問題建模（Problem Formulation）

強化學習基本模型的要素：
- 狀態空間
- 動作空間
- 獎勵函數
- 智能體與環境的交互過程

c. 解決策略（Solution Approach）

訓練方式：
- 在線訓練（環境實時交互）
- 離線數據集（offline dataset）
- 專家演示（expert demonstration）
學習過程：
- 經驗元組
- 學習模型 / 策略網絡（learned model / policy network）
推理方式：
- 規劃式策略（planning policy）
- 反應式策略（reactive policy）

d. 現實世界成熟度（Level of Real-World Success）

| 等級     | 描述                             |
|----------|----------------------------------|
| Level 5  | 已部署于商業化產品               |
| Level 4  | 在多種真實條件下驗證             |
| Level 3  | 在受限真實條件下驗證             |
| Level 2  | 在多樣化實驗室環境下驗證         |
| Level 1  | 在受限實驗室環境下驗證           |
| Level 0  | 僅在仿真環境中驗證               |

Problem Formulation

即如何為所研究的機器人能力構建最優控制策略的數學框架。在機器人任務中，強化學習問題通常被建模為：

部分可觀馬爾可夫決策過程（POMDP）：用于單智能體強化學習（single-agent RL）；
去中心化部分可觀馬爾可夫過程（Dec-POMDP）：用于多智能體強化學習（Multiagent RL, MARL）任務。

a) 動作空間（Action Space）

動作空間定義了智能體的輸出控制信號類型。可細分為三類：

低層動作（Low-level actions）：如關節空間命令或電機控制信號；
中層動作（Mid-level actions）：如任務空間中的位移或姿態目標；
高層動作（High-level actions）：如帶有時間延展性的任務序列命令或子程序調用（subroutines）。

b) 觀測空間（Observation Space）

觀測空間描述了智能體對環境狀態的感知方式，主要包括：

高維觀測（High-dimensional observations）：如圖像、激光雷達點云等原始傳感器輸入；
低維狀態向量（Low-dimensional state estimates）：如通過估計器或先驗模型獲得的簡化狀態表示。

c) 獎勵函數（Reward Function）

獎勵信號是強化學習的核心驅動因素。根據其反饋密度，可以分為：

稀疏獎勵（Sparse reward）：只有在完成特定目標后才給出獎勵；
密集獎勵（Dense reward）：在任務過程中持續給出反饋，以鼓勵或懲罰某些行為傾向。

Solution Approach

a) 模擬方式（Simulator Usage）

Zero-shot sim-to-real transfer：完全基于模擬訓練，直接遷移至真實環境，無需真實數據微調；
Few-shot sim-to-real transfer：模擬訓練為主，輔以少量真實環境微調；
無模擬器學習（learning directly offline or in the real world）：完全在真實世界或離線數據集上進行訓練，未使用模擬器。

b) 基于模型學習（Model Learning）

分析是否使用機器人交互數據對系統的**動力學模型（transition dynamics）**進行建模，分為：

Model-based RL：學習顯式模型，用于預測狀態轉移；
Model-free RL：不使用或隱式使用環境模型；
部分建模（Partial modeling）：僅對部分系統或任務階段建模。

c) 專家示范使用（Expert Usage）

是否引入專家策略（expert policy）或專家數據（如人類演示、oracle 策略）以加速學習過程。方法包括：

行為克隆（Behavior Cloning）
模仿學習（Imitation Learning）
獎勵塑形（Reward Shaping）等

d) 策略優化方式（Policy Optimization）

規劃方法（Planning-based）：如模型預測控制（MPC）等；
離線RL（Offline RL）
異策略RL（Off-policy RL）：如 DDPG、TD3、SAC；
同策略RL（On-policy RL）：如 PPO、TRPO。

e) 策略 / 模型表示方式（Policy/Model Representation）

多層感知器（Multilayer Perceptrons, MLP）
卷積神經網絡（Convolutional Neural Networks, CNN）
循環神經網絡（Recurrent Neural Networks, RNN）
圖神經網絡、Transformer等新型架構

圖源：Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes，Chen Tang1

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/900254.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/900254.shtml
英文地址，請注明出處：http://en.pswp.cn/news/900254.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！