浙大高飛團隊新作：提出層級式探索框架，讓「地空雙模」機器人自主決策“飛”或“走”

導讀

在面對復雜未知環境的自主探索任務中，如何在有限的能源與時間條件下實現高效、全面的場景感知，一直是機器人研究中的重要難題。近期，浙大高飛老師團隊一項關于“地空雙模機器人”的研究給出了新答案。

相比傳統單一形態的機器人，地空雙模平臺結合了地面機器人的持久續航與空中機器人的靈活機動，天然具備更強的環境適應能力。本文提出了一套層級式探索框架，利用雙模機器人可切換的移動方式，在不同區域中靈活決策“飛”還是“走”，實現信息獲取最大化。該系統首先提取環境中的關鍵信息區域，生成一系列具有潛力的觀測位點，并通過一種改進的蒙特卡洛樹搜索算法，在能源消耗與時間成本之間做出平衡，優化探索路徑和模式選擇。

研究不僅在仿真中取得了優異表現，還在真實搭建的機器人平臺上完成了驗證，展示了地空融合平臺在高效自主探索中的巨大潛力。接下來，小編將帶你深入了解這套系統的設計亮點與技術實現。

圖1｜TABV 將地面與空中兩種移動模式集成于單一平臺，在自主探索任務中展現出顯著的應用潛力。

論文出處：arXiv

論文標題：Autonomous Exploration with Terrestrial-Aerial Bimodal Vehicles

論文作者：Yuman Gao, Ruibin Zhang, Tiancheng Lai, Yanjun Cao, Chao Xu, and Fei Gao

自主探索在學術界與工業界持續受到關注，廣泛應用于救援、工程測繪、隧道巡檢等任務場景。近年來，研究者提出了多種探索策略，并將其部署在無人機（UAV）與地面機器人（UGV）上。然而，由于各類機器人的運動特性受限，其探索性能仍面臨瓶頸：空中機器人雖具備高機動性與廣闊視野，但續航時間短，不適合大范圍長時間任務；而地面機器人在復雜崎嶇地形中行動受限，主要適用于平坦開闊區域。為突破這些物理限制，部分研究嘗試將UAV與UGV組合成協同系統，但多機器人協作引入了額外的SLAM、路徑規劃與協調難題，增加了系統復雜性。

針對上述問題，本文提出了一種基于地空雙模機器人（TABV）的層級式探索框架。該平臺集成了UGV的長續航與UAV的高機動性和寬視野于一體，具備極高的任務適應性。考慮到現實中的能量與時間限制（尤其在救援等任務中），作者設計了一個雙模觀測點生成模塊，基于已知環境邊界提出潛在的探索視角；接著引入一種自適應規劃器，結合雙模能力和任務約束，動態選擇最合適的運動模式。文中進一步提出了一種新的“Bimodal Monte Carlo Tree Search（BM-MCTS）”算法，用于優化探索路徑和模式選擇順序。最后，系統集成了增強版的運動規劃器，支持地形感知與模式切換規劃。

論文的主要貢獻包括：

（1）提出了一個考慮能耗與時間限制的雙模探索框架，具備兩種視角覆蓋策略與靈活的決策機制；

（2）設計了BM-MCTS算法，支持在任務約束下的信息驅動探索決策；

（3）將規劃器與改進的運動規劃模塊整合，完成系統在仿真與真實平臺上的部署驗證。

圖2｜全文方法總覽

本研究旨在實現一個具備能量與時間意識的地空雙模自主探索系統，目標是在未知但有邊界的三維環境中，利用地空雙模機器人（TABV）在電量和時間預算內盡可能高效地收集有價值的信息，并確保任務結束時能安全返回起點。系統追求的并非全覆蓋，而是最大化信息獲取與任務完成的安全性，非常適用于通信受限或災后環境中的探索任務。

任務建模與系統流程概覽

作者將探索過程建模為一個觀測點（viewpoint）和運動模式（modality）聯合選擇的問題，旨在在電量和時間預算內最大化信息增益。為處理實際中的不確定性與資源限制，作者引入了一種懲罰函數機制，對超出預算的路徑進行非線性懲罰，從而鼓勵策略保留“冗余空間”，確保安全執行。

整個系統如圖2所示，分為三個階段：

1.?從環境中提取信息，生成候選觀測點；

2.?通過改進的雙模蒙特卡洛樹搜索（BM-MCTS）確定探索路徑；

3.?由雙模運動規劃器生成可行軌跡并控制執行。

信息提取與雙模觀測點生成

探索點的生成借鑒了“前沿探索”思路（見圖2④-⑤），即優先探索已知區域邊界附近的未知空間。作者提出兩種覆蓋策略：

●?AS（純空中策略）：僅利用空中視角對某一前沿簇進行觀測；

●?HS（混合策略）：優先從地面視角觀察，若無法完全覆蓋，再補充空中視角。

每個前沿簇會被分配一組候選視角（地面+空中），并通過貪心算法選出具有代表性的一組候選點。

此外，系統根據機器人在兩點之間的距離、角度變化、速度上限等，估算不同模式下的時間和能耗開銷。實際中，空中模式能耗是地面模式的7倍以上，速度雖快但受安全限制，故地面移動在能耗方面更具優勢，而空中模式則在節省時間上更具潛力。

圖3｜BM-MCTS 過程示意圖

BM-MCTS：能量與時間感知的路徑規劃算法

作者將經典的蒙特卡洛樹搜索（MCTS）擴展為BM-MCTS，用于在觀測點和雙模路徑選擇之間進行智能規劃（見圖3-5）。其核心包括：

●?樹結構設計：每個節點代表一個觀測點，并記錄當前路徑下的剩余能量和時間；

●?獎勵設計：結合路徑信息增益與終端成本，鼓勵策略在獲取更多信息的同時保留足夠資源；

●?選擇與擴展：基于上置信界（UCB）進行子節點選擇，權衡探索與利用；

●?仿真階段：引入旅行商路徑啟發，估算剩余路徑的能耗與時間；

●?剪枝機制：若某路徑剩余資源不足以返航，則剪枝以降低計算開銷。

該算法在保持計算效率的同時，確保策略在約束條件下仍能做出靈活、信息增益最大的決策。

圖4｜潛在子節點確定示意圖示例。(a)：前沿簇 B 中視點 B1 的潛在子節點。如果某視點所屬的簇已在當前路徑中被展開，則禁止選擇該簇中屬于另一種模態的視點作為子節點。(b)：對應的蒙特卡洛樹結構。每一條分支代表一個視點遍歷序列

圖5｜新擴展節點的引導路徑生成示例。(a)：正在擴展的蒙特卡洛樹，其中節點 A1 為新擴展節點，需進行模擬評估。(b)：節點 A1 的引導路徑生成過程。在該示例中，A1 被選中用于覆蓋簇 A，其從機器人當前位置 pr 到 A1 的路徑首先被確定。隨后通過求解分組旅行商問題（grouped TSP），得到遍歷所有簇并返回起始點的完整引導路徑。(c)：分組 TSP 的代價矩陣圖示。紫色區域表示不可達連接（代價無限），綠色區域表示同組內連接（代價為零）

雙模運動規劃器

為了將BM-MCTS輸出的目標點轉換為可執行的運動軌跡，作者設計了一種地空融合的運動規劃器，具備如下特點：

●?地形感知增強：通過在線地面分割動態識別可通行區域，不再假設固定地面；

●?模式自適應規劃：前端根據任務目標選擇地面或空中運動元件；后端則根據模式應用對應的動力學約束（如地面車輛的非完整約束）；

●?安全飛行設計：引入歐幾里得距離場（ESDF）約束，確保靠近邊緣時飛行安全，防止墜落；

●?全流程融合：最終構建一個具備完整閉環的自主探索系統，可部署在真實的TABV平臺上運行。

圖6｜層次化的雙模態運動規劃框架示意圖。(a)：基于運動學-動力學約束的路徑搜索前端；(b)：基于軌跡平坦性與微分約束的時空軌跡優化后端；(c)：非線性模型預測控制（NMPC）模塊，用于計算目標電機轉速。

為驗證所提雙模探索系統的實際效果，作者分別在多層仿真建筑環境與真實地下車庫中進行了全面測試。實驗聚焦三個核心問題：雙模能力的使用策略、在不同資源約束下的適應性、以及規劃算法的效率表現。

仿真測試：應對多層結構與資源限制

作者首先在一個兩層的房屋場景中測試了雙模機器人在能耗和時間預算下的探索策略。實驗展示了四個階段的探索行為演化：在起始階段能量充足時，機器人優先采用飛行模式獲取信息增益更高的視角；隨著能量逐步下降，系統逐漸偏向地面模式以節省開銷，并通過滾動穿越一層結構完成覆蓋；最終，為完成剩余空中視角的探索任務，機器人再次起飛，并在能量耗盡前安全返航。這種靈活切換策略驗證了 BM-MCTS 算法在多階段任務中的動態調度能力。

圖7｜本圖展示了 TABV 在雙層建筑場景中的探索過程與分析。(a) 是用于實驗的雙層房屋場景；(b) 展示了探索過程的四個階段：階段 01 中，TABV 通過飛行模式完成大廳的大部分探索；階段 02 中，TABV 轉為地面模式探索一樓平臺，并隨后飛至二樓；階段 03 中，TABV 滾動覆蓋二樓平臺區域；階段 04 中，TABV 飛行完成剩余大廳區域的探索并返回出發點。(c) 展示了用于路徑估計的拓撲圖；(d) 顯示了 TABV 的雙模態運動方式；(e) 為蒙特卡洛樹第二層中空中與地面子節點的平均獎勵差異；(f) 顯示了隨時間推移的覆蓋率變化；(g) 展示了探索結束時 TABV 剩余的能量與時間。

資源適應性分析

在一組辦公場景中，作者進一步探討了系統在不同預算條件下的適應性。結果表明：當時間預算充足而能量有限時，機器人更偏向地面行駛；相反，在能量充裕但時間緊張的情況下，則傾向采用飛行模式以節省時間。此外，作者還分析了“剩余資源量”隨預算調整的變化規律，進一步驗證了 BM-MCTS 算法在動態權衡能耗與任務效率上的彈性。

圖8｜仿真場景；(a)：帶有0.5米高隔斷墻的多房間場景；(b)：包含一系列預設視點的場景。

圖9｜在不同能量與時間預算下系統的性能表現。(a)-(b) 展示了在不同預算條件下的探索結果：(a) 表示不同預算下地面與空中模式的時間占比，其中數值為地面時間與空中時間的比值；(b) 顯示了探索完成時剩余的能量與時間情況。(c) 展示了不同迭代次數下的算法計算時間，以及對應的探索結束時的剩余能量與時間。