VLN 論文精讀（四）Dynamic Path Navigation for Motion Agents with LLM Reasoning

這篇筆記用來描述2025年發表在arxiv上的一篇有關VLN領域的論文，由港科大和達特茅斯大學聯合發布，其核心思想有以下幾點：

將3D環境轉化為2D平面；
2D平面中障礙物分布、機器人起點與終點信息用稀疏矩陣形式進行描述；
與LLM進行輪詢時使用格式化文本以規整LLM的輸入與輸出；

寫在最前面

為了方便你的閱讀，以下幾點的注意事項請務必了解：

該系列文章每個字都是我理解后自行翻譯并寫上去的，可能會存在筆誤與理解錯誤，如果發現了希望讀者能夠在評論區指正，我會在第一時間修正錯誤。
閱讀這個系列需要你有基礎的LLM與導航知識，有時候我會直接使用英文名詞，因為這些詞匯實在不容易找到符合語境的翻譯。
原文可能因為版面限制存在圖像表格與段落不同步的問題，為了更方便閱讀，我會在博文中重新對圖像表格進行排版，并做到引用圖表的文字下方就能看到被引用的圖表。因此可能會出現一張圖片在博客中多處位置重復出現的情況。
對于原文中的圖像，我會在必要時對圖像描述進行翻譯并附上我自己的理解，但如果圖像描述不值得翻譯我也不會強行寫上去。

Basic Information

論文標題：Dynamic Path Navigation for Motion Agents with LLM Reasoning
原文鏈接：https://arxiv.org/abs/2503.07323
發表時間：2025年03月10日
發表平臺：arxiv
預印版本號：[v1] Mon, 10 Mar 2025 13:39:09 UTC (1,987 KB)
作者團隊：Yubo Zhao1、Qi Wu1、Yifan Wang1、Yu-Wing Tai、Chi-Keung Tang
院校機構：
- The Hong Kong University of Science and Technology；
- Dartmouth College；
GitHub倉庫：【暫無】
項目網站：【暫無】

Abstract

LLMs已經展示了強大的通用推理和規劃能力。然而其在空間路徑規劃和無障礙軌跡生成方面的潛力仍未得到充分探索。鑒于LLMs處理未見場景、人機交互以及在復雜系統中全局控制的表現，利用LLMs進行導航規劃具有巨大潛力，非常適合Agent生成類人的運動行為。作為該領域最早的研究之一，作者通過構建數據集并提出評估標準，探索LLMs zero-shot導航和生成路徑能力。使用由直線連接的錨點來表示路徑從而實現多方向移動。與以往方法相比，本文提出的方法具備更高的靈活性和實用性，同時對LLMs而言保持了簡單和直觀輸入與輸出。作者證明該方式可以很好地構建任務，在LLMs進行避障的同時自主優化導航行為以到達目標，表現出卓越的規劃能力。此外，單個LLM Agent在靜態環境中的空間推理能力可以無縫地推廣到多Agent協同的動態環境中。與依賴單步規劃或局部策略的傳統方法不同，該方案基于LLM的無訓練方法實現了全局、動態、閉環規劃，并自主解決碰撞問題。
在這里插入圖片描述

1. Introduction

LLMs在各個領域的推理和規劃方面取得了顯著進展。這些模型表現出強大的泛化能力使其能夠處理未見場景，并對通識具有卓越的靈活性和理解力。盡管已經取得了這些成功，但LLMs在空間路徑查找和無障礙軌跡生成方面的應用仍然有限。

最近其他學者的工作已經探索了LLMs的空間推理能力，但大部分研究集中在仿真環境，其性能仍然不足以滿足真實環境需求。相比之下，基于深度強化學習（RL）的方法，在自主導航和路徑搜索任務中取得了顯著進展。然而這些方法通常需要大量的訓練數據，涉及環境之間的重復交互，數據采集的實際成本高昂。此外，RL方法在處理未見或未建模的情況時表現不佳，而這正是LLMs的顯著優勢。

作者探索了 zero-shot 預訓練LLMs在多樣化環境中進行導航的潛力，重點關注生成類人運動等實際應用。使用LLMs的方法實現了直觀的user-Agent交互，適合基于Agent的規劃、類人運動生成、多Agent協同作業等需求。為了使導航任務適合LLMs，作者將環境、Agent、規劃路徑表示為與LLM之間交互空間內的tokens。這種基于token的表示方法實現了高效的空間推理，為復雜環境中的路徑搜索提供了穩健而靈活的方案。具體來說，將路徑表示為稀疏錨點序列，允許Agent移動到空間中的任何位置，而不是像以前方案那樣依賴于預定義的目標位置集合。該方法更符合人類行為與避障直覺，同時也減輕了LLM的負擔。

作者通過在真實樓層平面圖上進行實驗，展示了他們方案性能，評估了各種LLMs在單Agent和多Agent條件下的導航能力。實驗結果表明，該方法能夠有效地推廣到以前未見的環境和任務中。此外，還展示了該系統在封閉環境中解決動態問題的能力，其中Agent通信和協作對于穩健導航和運動至關重要。Agent可以實時自主調整運動計劃以并避免碰撞，突顯了系統處理復雜、不可預測場景的能力。最后，強調了該系統在類人運動行為生成方面的潛力，展示了該系統如何為處于動態環境中的Agent生成與環境上下文相關的運動。這項工作為自主機器人、虛擬現實交互、人機交互等領域應用鋪平了道路，在這些領域中，Agent必須在復雜且動態空間中進行導航與協作。

2. Related Work

2.1 Spatial Understanding and Reasoning

在空間中進行有效的導航和規劃需要對環境有基本理解，這對人類和智能系統而言都是至關重要的能力。隨著LLMs的進步，空間推理已成為新興的研究重點。先前研究通過諸如QA等語言推理任務來測試LLMs的空間推理能力。還有研究探索了LLMs識別模式的能力，或專注于增強LLMs的3D推理能力。此外，也有研究對LLMs解決QA謎題方面性能進行了研究。本文旨在進一步探索和評估現代LLMs在標準化、結構化、真實Agent導航任務中的能力，展示它們在理解空間環境和生成可行解決方案上的有效性。此外，作者還展示了它們的下游應用的潛力，將應用范圍從理論或仿真場景擴展到真實環境中。

2.2 Using LLMs for Navigation

近期關于導航的LLM研究適用于受限的場景。例如，研究LLMs在簡單環境中下對單一可行路徑上導航的能力、在仿真簡化的方形網格中的路徑搜索能力、在沒有障礙物的5x5網格中單個Agent導航能力等。這些研究都集中在仿真環境中的導航，且運動行為被限制在四個方向（上、下、左、右）。其他工作使用語言模型以及帶有攝像頭輸入的單個機器人導航任務。相比之下，本文通過為一個或多個Agent實現全局規劃，允許在真實的樓層平面圖中進行導航，同時支持動態沖突處理，步縮小了仿真和真實場景之間的性能差異。

2.3 Environment-Aware Agents

在環境中規劃控制Agent是一個日益受到關注的領域。這項任務通常涉及導航避障以及Agent-環境交互。以往的研究通過手動指定路徑、A*算法、擴散模型等方案生成導航路徑。雖然這些方法在靜態環境中表現良好，但在更復雜的場景中，特別是當多個Agent共存時會遇到瓶頸。與單Agent系統相比，多Agent系統明顯引入了更高的復雜性，并且該領域在連續時空中的研究也相對缺失。一些方案使用擴散模型為多個Agent生成軌跡，但并沒有解決Agent之間的交互問題。基于傳統RL的方法已被用于動態環境中生成滿足物理約束的動作。然而這些方法通常難以泛化到不同的應用場景中。本文提出了一種免訓練的、基于LLM驅動的方法，該方法利用了LLM的通識和交互能力，以一種簡單直觀的方式促進了在動態環境中多Agent共存條件下的路徑規劃和導航，同時實現了Agent之間交互，類似于人類在復雜、動態環境中導航和交互行為。

3. Dynamic Path Planning with LLMs

為了讓LLMs理解這項任務，作者統一將Agent、錨定軌跡、環境信息編碼為離散的文本tokens，并按照以下方式進行交互：

3.1 Agents with Anchored Trajectories

與人類在環境中導航的方式類似，作者并不局限于離散策略。人類規劃的路徑類似于一系列近乎直線連接的錨點構成以避免障礙物，同時最小化總距離。例如，從一個房間移動到另一個房間時，可能會先直接走向門口，然后直接走向下一個房間的門口，最后進入目標房間。這種基于錨點的方法對人類來說很直觀，并且可以很容易地適應LLM規劃。在該框架中，路徑或軌跡不一定是密集的，而只需要一系列關鍵點，類似于將復雜任務分解為更簡單的子目標，這種方式非常適合現代LLMs的輸入。

令 $\chi$ 表示Agent可活動空間，則每個 $x\in\chi$ 表示Agent的一種可能狀態，路徑 $\Gamma$ 被定義為一系列點：

$\Gamma=\{x_{1},x_{2},\dots,x_{k}\}$

其中每個點 $x_{i}\in\chi$ 表示環境中的一個位置； $k$ 是路徑上錨點的總個數。通過直線連接這些點來生成軌跡，行程距離可以表示為：

$D(\Gamma)=\sum_{i=1}^{k-1}\|x_{i}-x_{i+1}\|_{2}$

其中 $\|\cdot\|_{2}$ 表示連續近鄰兩個點的歐式距離。總體目標是優化出一條滿足環境約束的路徑，使其能夠從初識狀態到達目標狀態的錨點連線。

路徑規劃的一個關鍵指標是確保軌跡避開靜態或動態障礙物，且僅當相鄰的兩個連續錨點 $x_{i}$ 和 $x_{i+1}$ 的線段上沒有障礙物時才認為這兩個點構成的子路徑是有效的，即對于每一對連續的點 $x_{i},x_{i+1})$ 滿足以下形式時子路徑有效：

$\forall t\in[0,1], such\,\,that\, \gamma(t)=(1-t)x_{i}+tx_{i+1},\\ there\,exists\,no\,obstacle\,such\,that\,\gamma(t)\in O$

其中 $\gamma(t)$ 表示點 $x_{i}$ 和點 $x_{i+1}$ 的線性插值； $O$ 表示環境中障礙物的集合。如果所有連續點對 $x_{i},x_{i+1})$ 都滿足條件，那么則認為這個路徑 $\Gamma$ 是可用的。

因此，路徑規劃問題可以被定義為：優化出一條連續的錨點 $\{x_{1},x_{2},\dots,x_{i}\}$ 并最小化總長度 $D(\Gamma)$ 同時確保在環境下路徑上不存在任何障礙物。

在多Agent場景中，因為不同Agent的軌跡可能會相交，這將導致路徑規劃的復雜度增加。雖然一些相交可能是不可避免的或難以解決的，但重點是不能讓Agent在同一時刻占據相同的空間。由于每個Agent的實際軌跡只能在運行期間完全確定，此時才能在動態環境中考慮Agent之間的交互和時間安排。

3.2 Spatial Environment Representation

在各種替代方案中，最常用和最直觀的空間表示形式是網格。在這種表示形式中，環境被離散化為網格結構，每個單元格對應一個空間中位置，從而可以精確地定義自由空間、障礙物、Agent所在位置。

也可以使用基于代碼的形式來表示空間，這對于LLMs來說可能更易于解釋。例如，可以定義變量來指定起點和目標位置，同時在網格上放置障礙物以塑造環境。代碼方案提供了一種清晰簡潔的方式來定義任務，是基于網格描述的替代方案。

作者在這里使用基于文本的形似，消除了空間推理和自然語言處理之間的差距，使LLMs能夠其已被證明有效的領域中利用自身的推理能力。該方法區別于將完整圖像作為輸入的模式，圖像可能會引入冗余信息，例如紋理、顏色或無關緊要的細節，同時使LLMs的語言能力得以發揮。基于文本的環境表示形式如下：

$G=\{g_{i,j} | g_{i,j}\in\{0,1\}\}$

其中 $g_{i,j}$ 表示在一個2D網格中第 $i$ 行 $j$ 列的單元格，并定義 $g_{i,j}=1$ 表示有障礙物， $g_{i,j}=0$ 表示自由空間；

作者同樣定義了用代碼標識障礙物的方式：
$C=obstacles.append((i_{1},j_{1}),\dots,(i_{n},j_{n}))$

其中每個 $i_{k},j_{k})$ 表示一個障礙物所在的位置。

3.3 System Architecture

3.3.1 Overview

本文提出的系統框架如 Figure 2. 所示，首先將樓層地圖編碼成基于網格 $G$ 或基于代碼 $C$ 的形式。編碼后的平面構成了一個環境 $E$ ，將其傳遞給 LLM $L$ 。

在這里插入圖片描述

給定 $N$ 個Agent，每一個Agent都有自己的起始點 $s_{i}$ 和目標點 $t_{i}$ 。LLM基于起點 $S=\{s_{i}\}_{i=1}^{N}$ 與目標點. $T=\{t_{i}\}^{N}_{i=1}$ 集合為所有Agent都生各自的路徑：

$\Gamma=L(E,S,T)=\{x_{1}^{(i)},x_{2}^{i},\dots,x_{k_{i}}^{i}\}_{i=1}^{N}$

在模擬的環境 $E$ 中，如果Agent在 $t$ 時刻發生了碰撞，則會請求LLM按照下文中 3.3.2 Path Refining Strategies 的策略，結合當前位置 $p_{i}(t)$ 以及碰撞檢測結果 $C_{t}$ 重新生成路徑 $\Gamma_{i}^{'}$ 。最終輸出的路徑 $\Gamma_{i}^{'}$ 確保每一時刻Agent都不會發生碰撞。

3.3.2 Path Refining Strategies

為了處理與靜態障礙物與動態障礙物碰撞，作者利用LLMs的多輪輪詢能力，允許LLM進行迭代優化直至輸出期望結果。作者在此提出了兩種迭代策略來調整路徑：累加式（additive）和 組合式（compositional）。

累加式：整體重新計算整個運動規劃，將先前所有規劃得到的路徑存放在一個統一的變量中，每次更新都會將Agent重置到起點位置；簡單但低效；
組合式：以增量方式優化軌跡，基于當前狀態進行逐步校正；高效但可能會增加未來規劃難度，可能會讓某些Agent在原地等待很久才允許移動；

累加式策略：令 $s$ 表示起點， $t$ 表示終點。給定 $n$ 次更新機會，如果Agent在第 $i$ 次嘗試中因為 $r$ （包括其當前卡住的位置）而卡住，這意味著每次更新都是全局計算的，則累加式策略將軌跡更新如下，從原始起點 $s$ 重新開始。：

$\Gamma_{i+1}=L(s,t,r)$

組合式策略：基于當前狀態優化軌跡。令 $p_{i}$ 表示路徑不成功時第 $i$ 次迭代的當前停止位置。更新后的軌跡計算如下，以當前卡住的位置作為規劃起點，每次調整都基于當前軌跡以實現增量式更新：

$\Gamma_{i+1}=L(p_{i},t,r)$

當多個Agent同時被卡住時，LLM可以使用任一策略來協調它們，計算出調整后的路徑。

4. Experiments

4.1 Experiment Setup

4.1.1 Dataset

為了確保系統適用于真實場景并保持簡潔性，作者以 R2V 數據集為基礎進行測試，該數據集包含來自實體建筑物的815個真實樓層平面圖。這些樓層平面圖主要呈直線形，能讓LLMs更容易處理和理解。

對于每個樓層平面圖，首先將其按照上文中提到的規則轉換為文本格式（具體操作細節見 Supplementary Material 章節），并隨機抽取三對起點和目標點。然后使用A*算法生成無碰撞路徑作為真實標簽（這里也可以使用Dijkstra算法），創建一個包含網格數據與路徑長度信息的數據集。

4.1.2 Evaluation Metrics

為了評估LLMs的性能，作者使用幾個常用指標：成功率（Success Rate，SR）、路徑長度加權成功率（Success weighted by Path Length，SPL）、完成率（Completion Rate，CR）、加權成功率（Weighted Suc- cess Rate，WSR）。這些指標通常用于導航和路徑規劃任務，以評估生成軌跡的效能與可用性。

Success Rate (SR)

成功率定義為Agent成功到達目標case占總測試用例的百分比：
$SR=\frac{1}{N}\sum_{i=1}^{N}II(success_{i})$
其中 $II(success_{i})$ 表示成功的次數，1為成功，0為失敗，共計進行 $N$ 次實驗；

Success weighted by Path Length (SPL)

SPL同時考慮了成功率和路徑的執行效率：
$SPL=\frac{1}{N}\sum_{i=1}^{N}\frac{II(success_{i})\cdot d_{i}}{max(d_{i}, d_{opt,i})}$
其中 $d_{i}$ 是Agent執行LLM生成的路徑長度； $d_{opt,i}$ 是第 $i$ 個case的最優路徑長度，通常用完備的傳統算法生成。SPL本質上是獎勵更短且高效的路徑，懲罰較長且低效的路徑。

Completion Rate (CR)

完成率衡量智能體實際達成的總路徑長度比，定義為：
$CR=\frac{1}{N}\sum_{i=1}^{N}\frac{d_{i}}{d_{total,i}}$
其中 $d_{i}$ 是Agent實際執行執行的路徑長度（可以成功也可以失敗）； $d_{total,i}$ 是Agent在第 $i$ 個測試中規劃出來的路徑總長度。CR指標強調計劃路徑的成功完成程度，無論成功還是失敗。

Weighted Success Rate (WSR)

WSR對更長路徑賦予更高權重，反映了它們的成本或復雜性，定義為：
$WSR=\frac{1}{\sum^{N}_{i=1}d_{opt,i}}\sum^{N}_{i=1}II(success_{i})\cdot d_{opt,i}$
其中 $d_{opt,i}$ 是最優路徑長度，反映了當前case的難度；分母對所有測試用例中的WSR進行歸一化，通過考慮總最佳路徑長度來確保WSR之和等于1。

這些指標通過反映了生成軌跡的達成率和效率、任務完成度和復雜性，對LLM的導航性能進行了全面評估。結合作者構建的數據集，提出了一種衡量LLM的空間導航能力的基準。

4.2 Quantitative Results

作者對一系列LLMs進行了實驗，包括GPT-4o、Gemini、DeepSeek、Llama、OpenAI o3-mini和Claude-Sonnet。包含了最先進的推理模型和通用模型。并且進行了基準測試和消融實驗，上述所有的實驗都是在zero-shot的條件下進行的。

4.2.1 Single-Agent

首先評估LLMs在單次生成中的表現。直接從起點到終點而不允許期間對路徑進行任何修正。輸入部分使用上文中的網格描述和代碼形式。此外，作者還進行了不進行空間編碼，在原始圖像上標記起點和終點后直接作為輸入的實驗。

Table 1 的結果證明了以下幾點：

具備推理能力的模型在任務中表現出明顯更強的性能；
文本輸入形式優于圖像的輸入形式，突出了文本表示的有效性，更自然地符合LLMs處理結構化與基于離散文本信息的能力。
在對比兩種文本輸入形式（網格描述和代碼形式）時，其有效性因模型而異。對于大多數模型而言，基于代碼的輸入能夠產生更好的性能，因為其明確編碼了坐標。然而，對于有推理能力的模型o3-mini而言，基于網格的格式則更有效。可能是由于其類似于人一樣能夠直觀地識別空間模式解釋。

作者還研究了該系統如何通過多輪交互來提升性能。對比了累加式和組合式策略，結果如 Figure 3. 所示：

隨著輪數的增加，兩種策略都有助于整體性能的提高；
累加式方法通常獲得更高的成功率（SR和WSR），因為它在每一步都從起點重新計算完整路徑；
組合式方法雖然更容易受到次優規劃的影響，但表現出更高的SPL和CR，因為能夠在不重置的情況下優化當前軌跡，保留了進度并確保持續改進。

4.2.2 Multi-Agents

作者還將實驗擴展到2～3個Agent的場景，結果如 Figure 4. 所示。在這些實驗中最大重試次數設置為3，該配置引入了額外的復雜度，因為每個Agent在必須導航至各自的目的地的同時，還需要避開障礙物并動態解決與其他Agent之間的沖突問題，從而使系統更具交互性和適應性。
在這里插入圖片描述

實驗結果表明以下論據：

隨著Agent數量的增加，系統整體性能得分會降低，但仍會保持在合理的范圍內；
該實驗這證明了多Agent協同的可行性，以及LLMs管理復雜動態環境的能力；
不同的調整策略對整體性能的影響很小；
組合式策略往往產生較低的得分，這與現實世界情形結果一致，例如，當兩個人彼此走近并且都本能地向同一方向邁步以避免碰撞時，他們可能會無意中造成尷尬的局面；
累加式方法可能更有效地全局解決此類協調沖突；

總的來說，o3-mini 等現代LLMs在空間導航任務中展現了強大的能力，在單次嘗試中達到了約80%的成功率（SR），在單Agent場景的多輪嘗試中達到了約90%的成功率（SR）。該系統還可以無縫擴展到多Agent場景并保證性能下降不大。此外，所有實驗都是在zero-shot條件下進行的，進一步驗證了LLMs的推理能力和通識。綜上所述，現代LLMs能夠適用于現實世界的Agent場景。

4.3 Qualitative Results

在本節中，作者將可視化實驗結果，并介紹一個涉及生成環境感知類人運動的真實應用如 Figure 6. 所示。OmniControl和TLControl等控制算法依賴于手動定義的輸入軌跡。

像Motion-Agent這樣的框架利用LLMs自動分解復雜的用戶請求，并通過Agent生成運動從而實現自然的user-Agent交互。通過整合這些方法，作者證明了基于LLM的導航系統可以無縫地應用于類人行為的下游任務。此外，該系統可以輕易地擴展到多個Agent共存的場景中。如 **Figure 6.**所示，一旦系統生成無碰撞軌跡，就可以用于引導不具備環境感知能力的模型來避免碰撞。
在這里插入圖片描述

在 Figure 5. 中提供了俯視圖和3D類人運動行為，展示了該系統可以有效地為單個和多個Agent進行導航。雖然最初生成的路徑有時會不可用，但系統可以通過多次自主調整以解決此類問題。在下圖的右側，五個Agent遇到了不同困難，系統通過多次調整成功地協調了它們的路徑，使它們能夠避開障礙物和彼此最終到達各自的目的地。
在這里插入圖片描述
此外，作者還將輸入樓層地圖擴展到3D，其中不是使用1和0來表示障礙物和自由空間，而是為每個點分配一個高度值形成一個高度圖。因此，輸出路徑用三維的錨點表示。如 Figure 7. 所示，該類擴展使系統能夠生成不限于平面上的Agent路徑。此外，該系統有與SCENIC 等方法集成的潛力，這些方法可以與場景之間進行交互，但依賴于事先手動輸入軌跡來實現避障功能。
在這里插入圖片描述

5. Discussion

RL-agents vs LLM-agents

雖然現代LLMs與強化學習（RL）并不沖突，因為兩者都是通過人類反饋強化學習（RLHF）訓練得到的，但與傳統深度強化學路徑規劃形成鮮明對比的是，后者強調優化預期折扣回報（對于單Agent RL）和聯合策略均衡（在多Agent RL中），通常需要大量訓練數據。本章節展示了現代LLMs在單Agent和多Agent場景中進行路徑規劃和動態導航zero-shot、免訓練的能力，并使用完成率、成功率、路徑長度進行性能評估。雖然這些指標常規RL優化目標相比較而言更簡單，但對于評估任何自主系統的性能而言是等價的。

Limitations and Future Work.

本文關于LLM導航的當前工作側重于動態系統，包括多Agent場景并使用仿真環境進行了驗證。雖然這些仿真為系統有效性提供了論據，但缺乏真實世界的測試，特別是使用真機和在家庭場景中的效能需要進一步驗證。此外，該方法依賴于全局編碼的樓層平面圖，需要假設路徑規劃期間該平面圖具備完全可觀測性。然而在許多機器人應用中，導航期間只能獲得部分環境觀測信息。未來的工作將探索用局部嵌入策略替換全局樓層平面圖嵌入，側重于每個Agent在當前時刻僅可觀測到周圍環境。盡管如此，作者認為該系統從院里上是可推廣的，能夠無縫集成其他功能，例如碰撞處理以及Agent之間交互，這些功能可以作為局部操作進行添加。

Concluding Remarks

本文作者研究了LLMs在動態環境中Agent空間導航和無碰撞軌跡生成方面的推理能力。將樓層地圖表示為離散文本，并使用稀疏錨點來描述導航路徑。作為LLMs空間推理的早期研究之一，作者構建了一個綜合數據集并提出了評估標準來度量系統的性能。此外，還將研究擴展到多個Agent共存的場景。實驗結果表明，LLMs可以有效地對Agent進行協調，并在閉環、動態環境中自主解決沖突情況。通過將其應用于類人運動任務中，展示了該系統的拓展潛力。總而言之，這篇文章的工作推進了智能系統的發展，所提出的框架能夠更好地感知和理解現實世界后做出適當的決策，并實現user-Agent之間的交互，從而為真實場景中的應用鋪平了道路。

Supplementary Material

這一章節是原文中的實驗支撐依據，用來證明其實驗的有效性。

A. More Qualitative Results

在補充材料中提供了一些的定性結果，包括附加視頻和一個HTML文件（但是我在他們版本的預印版中沒有發現這兩個文件），以實現更好的可視化。此處展示了一些最終生成的軌跡的俯視圖。

Figure 1. 說明了LLM有效管理和解決復雜且具有挑戰性場景的能力：

在這里插入圖片描述

Figure 2. 展示了累加式策略如何利用重啟機制成功避開障礙物：
Figure 3. 展示了組合式策略如何即時動態避開障礙物：

在這里插入圖片描述

B. Dataset Processing

B.1 Spatial Encoding

對于一個給定的平面輸入圖像 $I\in R^{H\times W\times 3}$ 首先將其轉換為灰度圖：
$I_{g}=Grayscale(I), I_{g}\in R^{H\times W}$
移除所有空白的行和列以保留核心區域 $I^{'}\subseteq I_{g}$ ：
$I^{'}=I_{g}[rows(I_{g})\neq0, cols(I_{g})\neq0]$
對 $I^{'}$ 進行填充以達到標準尺度 $I_{r}$ ，使用高斯平滑調整大小以降低分辨率得到：
$I_{s}=GaussianBlur(I_{r})$
最后將圖像進行二值化得到 $I_{b}$ ：
$I_{b}(x,y)= \begin{cases} 1, & I_{s}(x,y)\neq0 \\ 0, & otherwise \end{cases}$
最終得到的二值矩陣 $I_{b}$ 構成了可導航與障礙物空間并提供給后續推理使用。

B.2 Sampling

為了增加任務的復雜性使其超越均勻決策，這里采用了一種策略來生成起點和終點位置。對于給定的起始單元格 $s$ 和任何候選單元格 $c$ ，曼哈頓距離定義為：
$d(c)=|i_{s},i_{c}| + |j_{s},j_{c}|$
令 $d_{min}$ 和 $d_{max}$ 分別為從點 $s$ 到候選單元的最大與最小距離，并將其歸一化，約定當 $d_{max}=d_{min}$ 時 $\hat{d}=0$ ：
$\hat{d}(c)=\frac{d{c}-d_{min}}{d_{max}, d_{min}}$
對于給定距離權重 $\alpha\in[0,1]$ 計算每個候選點：
$w(c)=\alpha\hat{d}(c)+(1-\alpha)$
選擇單元格 $c$ 的概率為：
$P(c)=\frac{w(c)}{\sum_{c^{'}\in C}w(c^{'})}$
其中 $C$ 是候選單元格集合。隨著 $\alpha$ 值的增加，該方法將選擇偏向于離 $s$ 更遠的單元格的同時保留了隨機性。在實驗中令 $\alpha=0.5$ 。

C. More Discussion

在NeurIPS 2024一篇相關論文里的任務要比本文簡單得多，只涉及一條可選路線的小網格地圖以及四個運動方向，該配置可以被認為是本文case的一個子集。但其論文中使用GPT-4導航SR和CR分別僅為15%和40%左右。作者認為是缺乏結構良好和標準化任務IO導致的，其輸出通常包含預期意外的內容，需要對文本進行字符串模版匹配以獲得最終結果。相比之下，作者在任務描述上采用了標準化的IO格式，類似于現代Agent調用LLM時使用的格式，確保了路徑生成內容更加標準化和結構化，以此更容易地應用于真實世界的場景。

D. Epilogue: Deep Reinforcement Learning

熟悉用RL進行動態路徑導航Agent的讀者很清楚，如果有足夠的訓練數據，那么在仿真環境中使用近端策略優化和軟約束評分算法，深度RL的成功率（SR）可能會超過0.9，其表現將如論文主體部分的 Figure 3. 和 **Figure 4.**所示，zero-shot的SR和相關性能可以達到這種性能，在有多轉彎場景中的導航性能超過75%。
在這里插入圖片描述