在強化學習的世界里,智能體與環境的交互核心是 “動作選擇”。當面對離散動作空間(如圍棋的落子點、游戲的按鍵操作)時,智能體可以直接枚舉或概率選擇有限的動作;但在連續動作空間中(如機器人關節角度、無人機加速度、溫度控制的數值),動作是無限的,智能體如何 “輸出” 動作就成了關鍵問題。
今天我們就聚焦連續空間強化學習中策略的兩種核心輸出形式:隨機策略(輸出概率分布參數) 與確定性策略(輸出具體動作值),看看它們如何平衡 “探索未知” 與 “利用已知”,以及各自在實際場景中的應用邏輯。
一、隨機策略:用概率分布擁抱不確定性
隨機策略的核心哲學是:不直接給出 “最優動作”,而是描述 “動作的可能性”。通過概率分布的隨機性,智能體既能大概率選擇已知較好的動作,又能小概率嘗試新動作,自然實現探索與利用的平衡。
1. 為什么是概率分布?
連續空間的動作是無限的(比如 “室內溫度調節” 可以是 18.5℃、23.3℃等任意值)。如果智能體每次都輸出一個固定動作,很容易陷入 “局部最優”—— 比如一直用 22℃,卻不知道 21.5℃能更節能。
概率分布則像一個 “靈活的指南針”:
-
大概率指向已知較好的動作(利用);
-
小概率覆蓋其他可能(探索)。
隨著訓練深入,分布會逐漸向最優動作收縮,實現 “從探索到收斂” 的過程。
2. 概率分布的參數:以高斯分布為例
連續空間中最常用的是高斯分布(正態分布),因為它能很好地描述連續數值的不確定性。策略網絡的輸出是高斯分布的兩個核心參數:
-
均值(μ):分布的中心,代表 “當前認為最可能最優的動作”(比如機械臂關節的目標角度 30°);
-
標準差(σ):分布的離散程度,代表 “探索范圍”(σ 越大,動作采樣越分散,探索性越強)。
舉個例子:
在機械臂抓取任務中,策略網絡輸出 μ=30°(關節角度),σ=5°。此時智能體會從這個分布中采樣動作,可能是 28°、32°、甚至 25°(但大概率集中在 30° 附近)。如果某次 28° 的動作成功抓取,后續訓練會讓 μ 向 28° 靠近,同時 σ 可能減小(減少無效探索)。
3. 實際場景:無人機姿態控制
無人機的 “俯仰角” 控制是典型的連續動作任務(范圍 - 10°~10°)。采用隨機策略時:
-
策略網絡輸出高斯分布參數 μ=2°,σ=1°;
-
實際動作從該分布中采樣,可能是 1.8°、2.1°、甚至 2.5°;
-
若 2.1° 時無人機穩定性更好,獎勵更高,網絡會調整 μ 逐漸接近 2.1°,σ 縮小到 0.5°(聚焦更優動作)。
二、確定性策略:直接輸出 “最優解”
確定性策略的邏輯更直接:在當前狀態下,直接輸出一個固定的動作值,即 “我認為這個動作就是最優的”。它不依賴隨機性,而是通過外部機制實現探索。
1. 為什么需要確定性輸出?
-
效率更高:無需采樣和分布計算,直接輸出動作,適合高維連續空間(比如 100 個關節的機器人);
-
場景適配:某些任務的最優動作是 “確定的”(比如穩定行走的機器人,每個時刻的關節角度有明確最優值)。
2. 如何解決探索問題?
確定性策略本身沒有隨機性,若直接用輸出動作,可能 “一條道走到黑”(比如一直用 22℃,永遠發現不了 21.5℃的優勢)。因此需要人工添加探索噪聲:
-
比如在輸出動作上疊加小幅度的隨機噪聲(如高斯噪聲);
-
訓練初期噪聲大(鼓勵探索),后期噪聲衰減(聚焦最優動作)。
3. 實際場景:自動駕駛的油門控制
自動駕駛中,“油門開度” 是連續動作(0~100%)。采用確定性策略時:
-
策略網絡直接輸出動作值 30%(當前認為最優的開度);
-
實際執行時疊加 ±5% 的噪聲,動作可能是 27%、32% 等;
-
若 32% 時加速更平穩(獎勵更高),網絡會調整參數,讓輸出逐漸向 32% 靠近;
-
訓練后期噪聲減小到 ±1%,最終穩定在最優值附近。
三、兩種策略的核心區別與適用場景
維度 | 隨機策略(輸出分布參數) | 確定性策略(輸出具體動作值) |
---|---|---|
輸出形式 | 概率分布參數(如高斯分布的 μ 和 σ) | 具體動作值(如 30°、2.5m/s2) |
隨機性來源 | 內置(從分布中采樣) | 外部(人工添加噪聲) |
探索控制 | 通過標準差 σ 調整(σ 越大探索越強) | 通過噪聲幅度調整(初期大、后期小) |
計算效率 | 較低(需采樣和分布參數優化) | 較高(直接輸出動作) |
典型算法 | PPO、SAC、REINFORCE | DDPG、TD3 |
適用場景 | 復雜環境(如機械臂精細操作、游戲 AI) | 高維動作空間(如多關節機器人)、最優動作穩定的場景 |
四、總結:沒有 “最好”,只有 “最合適”
連續空間強化學習中,隨機策略和確定性策略的核心目標都是找到 “最大化累積獎勵的動作”,只是通過不同的輸出形式平衡探索與利用:
-
隨機策略用概率分布 “自然探索”,適合復雜、未知環境;
-
確定性策略用固定動作 “高效收斂”,依賴外部噪聲探索,適合高維或最優動作明確的場景。
在實際應用中,選擇哪種策略往往取決于任務特性(如動作維度、環境復雜度)。例如,機械臂裝配任務常用 SAC(隨機策略)處理精細操作,而多足機器人行走可能用 DDPG(確定性策略)提升效率。
隨著強化學習的發展,兩種策略的邊界也在模糊(如 SAC 結合了隨機策略的探索性和確定性策略的穩定性)。理解它們的底層邏輯,才能更好地選擇和改進算法,讓智能體在連續世界中更 “聰明” 地行動。
(注:文檔為人類與 AI 共創)