目錄
玻爾茲曼分布定義
玻爾茲曼探索:
1. 玻爾茲曼分布公式
2. 溫度?T?如何影響采樣結果?
(1) 高溫 (T→∞):
(2) 低溫 (T→0+):
(3) 中等溫度 (T∈(0,∞)):
3. 直觀示例
4. 實際應用中的意義
5.核心誤區澄清:選擇機制 ≠ 貪心
總結
參考:
玻爾茲曼分布定義
在統計力學和數學中,玻爾茲曼分布(英語:Boltzmann distribution),或稱吉布斯分布(英語:Gibbs distribution)[1],是一種概率分布或概率測度,它給出一個系統處于某種狀態的概率,是該狀態的能量及溫度的函數。該分布以下列形式表示:
?
其中pi是系統處于狀態i的概率,εi是該狀態的能量,kT為玻爾茲曼常數k和熱力學溫度T的乘積。符號∝表示比例(比例常數見§?分布形式)。
兩種狀態的概率比稱為玻爾茲曼因子,其特征在于其僅取決于兩狀態之能量差:
其中,pi為狀態i的概率,pj為狀態j的概率,而?i和?j分別為狀態i和狀態j的能量。兩能量對應的概率比,必須考慮它們的簡并能級。
該分布表明,低能量的狀態比起高能量的狀態具有較高的分布概率。同時,它也能夠定量地比較兩能級分布概率的關系。
玻爾茲曼分布是狀態能量與系統溫度的概率分布函數,給出了粒子處于特定狀態下的概率[7]。其具有以下形式:
其中pi為狀態i的概率,?i為狀態i之能量,?k為玻爾茲曼常數,T為系統的絕對溫度,而M是系統中我們有興趣且可知的狀態數量。 分母為歸一化常數Q,這個結果源自于所有可能狀態的概率之和必須為1的約束條件。
玻爾茲曼分布是使熵最大化的分布。
玻爾茲曼探索:
在玻爾茲曼探索(Boltzmann Exploration)中,溫度系數?TT?是一個關鍵的超參數,它直接控制著動作選擇策略的探索-利用權衡(Exploration-Exploitation Trade-off)。溫度?TT?的變化會顯著改變動作概率分布的形狀,但不會改變動作價值(Q值)的相對排序。以下詳細解釋:
1. 玻爾茲曼分布公式
動作?a 被選擇的概率由玻爾茲曼分布(Softmax 函數)給出:
其中:
-
Q(a)是動作?aa?的價值估計,
-
T>0?是溫度系數,
-
分母是所有動作的指數值之和。
2. 溫度?T?如何影響采樣結果?
(1) 高溫 (T→∞):
-
效果:所有動作的概率趨近均勻分布。
-
數學解釋:
-
行為:智能體完全隨機探索,忽略動作的價值差異。
(2) 低溫 (T→0+):
-
效果:概率集中在價值最高的動作上。
-
數學解釋:
-
行為:智能體趨于貪心策略(純利用),幾乎不探索。
(3) 中等溫度 (T∈(0,∞)):
-
T越大:動作概率分布越平緩(高熵,高探索性)。
-
T?越小:分布越尖銳(低熵,高利用性)。
3. 直觀示例
假設三個動作的 Q 值:Q(a1)=3,?Q(a2)=2,?Q(a3)=1:
溫度?TT | P(a1)P(a1?) | P(a2)P(a2?) | P(a3)P(a3?) | 分布特性 |
---|---|---|---|---|
T=10 | 0.36 | 0.33 | 0.31 | 接近均勻分布 |
T=1 | 0.67 | 0.24 | 0.09 | 適度偏向最優動作 |
T=0.1 | 0.999 | 3.7×10?4 | 1.4×10?9 | 幾乎貪心選擇最優 |
? 始終滿足?P(a1)>P(a2)>P(a3),但概率差異隨?TT?減小而急劇增大
4. 實際應用中的意義
-
退火策略(Annealing):
實踐中常從高溫開始(充分探索),逐漸降低?TT(增加利用),平衡學習過程。 -
超參數調優:
TT?需根據問題調整:-
高噪聲環境 → 更高?TT(避免過早收斂到次優解)
-
確定性環境 → 更低?TT(快速利用已知最優解)。
-
5.核心誤區澄清:選擇機制 ≠ 貪心
-
??誤解:
“先計算概率分布 → 再選擇概率最大的動作 = 貪心策略” -
??現實:
玻爾茲曼探索的最終動作選擇是依概率采樣(Stochastic Sampling),而非固定選擇最大概率動作。
代碼實現偽代碼: -
def boltzmann_exploration(Q_values, T):# 計算所有動作的指數權重exp_values = np.exp(Q_values / T)# 計算概率分布 (Softmax)probs = exp_values / np.sum(exp_values)# 關鍵步驟:按概率分布隨機采樣一個動作chosen_action = np.random.choice(actions, p=probs)return chosen_action
總結
-
玻爾茲曼探索的探索性來自隨機采樣,而非直接選擇最大概率動作。
-
溫度?TT?通過調節概率分布的平坦度控制采樣隨機性:
-
高?TT?→ 分布平坦 → 采樣結果多樣性高 →?強探索。
-
低?TT?→ 分布尖銳 → 采樣結果集中在最優動作 →?弱探索。
-
-
貪心策略是 Boltzmann 在?T→0+T→0+?時的極限情況,正常?T>0T>0?時必有探索行為。
這種設計使智能體能在利用已知高價值動作的同時,智能地探索潛在有價值的替代動作(而非完全盲目隨機),是平衡探索-利用的理想策略之一。
參考:
https://zh.wikipedia.org/wiki/%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E5%88%86%E5%B8%83