基于強化學習的控制率參數自主尋優

1.介紹

針對控制建模與設計場景中控制參數難以確定的普遍問題，提出了一種基于強化學習的控制律參數自主優化解決方案。該方案以客戶設計的控制律模型為基礎，根據自定義的控制性能指標，自主搜索并確定最優的、可狀態依賴的控制參數組合。

可用于各類飛行器、機器人等類的控制系統優化。無論是經典的PID控制，還是其他先進的控制方法，該模塊都能提供一種通用的參數優化方案。通過與控制律參數自主優化模塊的結合，工程師們將獲得更多的精力用于控制策略的設計和算法的創新，而將繁瑣的參數調試工作交給智能化優化系統完成。

2.應用場景

面向復雜系統的控制建模與控制律設計研發場景，適用于需要頻繁進行控制律設計、控制律調整、控制參數調整的研發場景，包括各類機器人設計（機械臂、機械狗、特殊結構如水上水下機器人、擬人機器人等）、各類飛行器設計（固定翼、四旋翼、航天器等）、其他機械設施（汽車、發動機等）。

3.參考示例-基于強化學習的PID參數整定

在控制系統控制器性能分析中，系統階躍響應對應的超調量、上升時間、調節時間等動態性能指標是關于控制器參數矢量 X 的非線性函數，評價控制器設計優劣的關鍵性因素。

結合強化學習理論和控制理論知識，設計一種基于強化學習（reinforcement learning, RL）的控制器參數自整定及優化算法。算法將控制參數矢量 X作為智能體的動作，控制系統的響應結果作為狀態，引入動態性能指標計算獎勵函數，通過在線學習周期性階躍響應數據、梯度更新控制器參數的方式改變控制器的控制策略，直至滿足優化目標，實現參數的自整定及優化。算法原理如下圖所示。

根據原理圖，參數自整定及優化算法將控制器參數整定問題定義為，求解滿足下列不等式約束條件的可行解：

式中： Z為待優化的參數矢量X的取值范圍；Ωi?(i=1,2,3) 為優化目標的約束值。基于控制系統動態性能指標超調量 δ、上升時間 tr、調節時間 ts，算法定義獎勵函數為

算法的參數整定及優化流程如下：

根據實際條件和需求設定優化目標 Ωi和參數 X的搜索范圍 Z，隨機初始化參數 X；
返回步驟 2)，重復上述步驟。
利用梯度下降法更新參數；X=X+α??X+σ，其中 σ為高斯白噪聲，α為自適應學習率；
計算 m個樣本的參數平均梯度 ?X；
從經驗回放集 S 中隨機批量抽取 m 個經驗樣本，將 2) 中數據存入經驗回放集 S；
獲得系統在參數 X下的周期階躍響應數據，計算動態性能指標 δ、tr 、ts和獎勵函數 R；若滿足優化目標，則終止迭代，輸出參數 X；

為了盡可能獲得全局最優的參數，參數自整定及優化算法在更新參數的過程中引入高斯白噪聲，增加參數的探索度。同時，算法利用經驗回放技術，對過去的經驗樣本進行隨機批量抽樣，減弱經驗數據的相關性和不平穩分布的影響，增加優化過程的準確性和收斂速度。實踐試驗中，為避免算法陷入局部死循環，當可行解的變異系數小于一定閾值時，即認為算法已獲得局部收斂（近似全局）的相對最優解，保留當前結果并重新搜索。

案例參考自：

YAN Jiazheng,ZHUAN Xiangtao. Parameter self-tuning and optimization algorithm based on reinforcement learning[J]. CAAI

Transactions on Intelligent Systems , 2022, 17(2): 341-347.

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/19803.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/19803.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/19803.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！