中農具身導航賦能智慧農業!AgriVLN:農業機器人的視覺語言導航

圖片

  • 作者:Xiaobei Zhao, Xingqi Lyu, Xiang Li

  • 單位:中國農業大學

  • 論文標題:AgriVLN: Vision-and-Language Navigation for Agricultural Robots

  • 論文鏈接:https://arxiv.org/pdf/2508.07406v1

  • 代碼鏈接:https://github.com/AlexTraveling/AgriVLN

主要貢獻

  • 提出了A2A基準測試,這是一個覆蓋6種常見農業場景(農場、溫室、森林、山區、花園和村莊)的視覺語言導航(VLN)基準測試,包含1560個episode,所有真實RGB視頻都是由四足機器人前端攝像頭在0.38米高度拍攝的,與實際部署條件一致。

  • 提出了視覺語言導航農業機器人(AgriVLN)基線方法,基于視覺語言模型(VLM),通過精心設計的模板提示,能夠理解給定的指令和農業環境,為機器人控制生成適當的低級動作。

  • 提出了子任務列表(STL)指令分解模塊,并將其集成到AgriVLN中,在A2A基準測試上,與基線相比,完整模型將成功率(SR)從0.305提高到0.417,并且進一步與其他現有VLN方法進行比較,證明了其在農業領域視覺語言導航方面的最新性能。

研究背景

圖片

  • 農業機器人在農業任務中發揮著重要作用,但目前大多數農業機器人的移動仍然依賴于人工操作或固定的軌道,這限制了它們的機動性和適應性。

  • 視覺語言導航(VLN)能夠使機器人根據自然語言指令導航到目標位置,并且在多個領域表現出色,但現有的基準測試和方法都沒有專門針對農業場景設計。

  • 現有的VLN基準測試主要集中在室內環境或城市街道等場景,而農業場景具有其獨特性,如不同的地形、植被分布和光照條件等,因此需要一個專門針對農業場景的VLN基準測試來評估農業機器人的導航能力。

圖片

A2A基準

任務定義

視覺語言導航(VLN)在農業機器人中的任務定義如下:在每個實驗場景(episode)中,模型被賦予一條自然語言指令?,其中??是單詞的數量。在每個時間步?,模型接收前向RGB圖像?。模型的目標是理解指令??和圖像?,從而選擇最佳的低級動作?(動作空間包括:前進、左轉、右轉、停止),引導機器人從起點導航到目標位置。

數據集收集

數據收集涵蓋了6種不同的農業場景分類:農場、溫室、森林、山脈、花園和村莊,這些場景涵蓋了所有常見的農業場景。

  • 指令生成:在每個實驗場景中,專家重現實際的農業活動,并提取人類移動的軌跡,然后精心設計一條準確的指令來描述該軌跡。與傳統VLN基準測試中精致簡潔的指令不同,A2A中的指令更加隨意且冗長,包含許多無意義和誤導性的內容,以更真實地還原農業工人說話的語氣。

  • 機器人控制:選擇Unitree Go2Air四足機器狗作為實驗農業機器人。在每個實驗場景中,專家手動控制機器人沿著從起點到終點的最佳路徑行走,以完成相應的指令。

  • 視頻錄制:使用Unitree Go2Air四足機器狗內置的前向RGB攝像頭作為視頻錄制設備。在每個實驗場景中,專家手動控制攝像頭記錄整個時間線的前向視圖。每個視頻流以1280×720的分辨率、約14FPS的幀率和約1100kbps的碼率進行捕獲。

  • 數據標注:對于每個時間步?,專家根據機器人的實際行走狀態手動標注機器人的真值動作。將相鄰相同的動作序列 ({a_{t1}, a_{t1+1}, \dots, a_{t2}}) 聚合成一個時間間隔,并以字典格式保存。每個實驗場景由多個這樣的時間間隔組成,以JSON格式存儲。

數據集評估

圖片

  • 數據規模與分布:A2A基準測試共收集了1560個實驗場景,分布在6種不同的場景分類中,包括農場372個、溫室258個、森林384個、山脈198個、花園258個和村莊90個。指令長度從10到99不等,平均長度為45.5,子任務數量從2到8不等,平均為2.6。

圖片

  • 詞匯分布:A2A中的指令詞匯包含893個單詞,其中“front”、“camera”和“view”是常用的名詞,而“go”、“stop”和“need”是常用的動詞。這些詞匯都是日常生活中常見的,證明了A2A指令與農業工人對話的語氣一致性。

  • 與其他基準測試的比較:A2A在多個方面與其他主流VLN基準測試進行了比較,包括場景多樣性、圖像質量和數據規模。A2A涵蓋了所有常見的農業場景,圖像采集條件與實際農業機器人一致,并且提供了更長的指令以更好地評估模型對長文本的理解能力。

評估指標

  • 成功率(SR):成功完成任務的實驗場景比例。

  • 導航誤差(NE):機器人最終位置與目標位置之間的距離。

  • 獨立成功率(ISR):每個子任務的成功率,計算公式為:其中??和??分別是實驗場景??中成功的子任務數量和總子任務數量,?是評估實驗場景的集合。

方法

圖片

子任務列表

子任務列表模塊將指令分解為一系列子任務,使模型能夠逐步完成復雜的導航任務。具體步驟如下:

  • 指令分解:將指令??分解為子任務列表?,每個子任務??包含四個參數:步驟順序(ID)、具體描述(D)、開始條件(SC)、結束條件(EC)和當前狀態(σ)。

  • 大型語言模型(LLM):使用LLM??實現指令分解,公式為:其中??是LLM的提示,遵循以下三個原則:

    • 顆粒原則:任何子任務都不能進一步分解為更細的子任務。

    • 同義詞原則:子任務列表傳達的語義必須與原始指令等價,確保不遺漏或添加任何信息。

    • 連接原則:下一個子任務的開始條件必須與上一個子任務的結束條件對齊。

決策制定

決策制定模塊使用視覺語言模型(VLM)??來實現,具體步驟如下:

  • 輸入與輸出:在每個時間步?,VLM接收當前攝像頭視圖??和子任務列表?,并輸出最佳低級動作?、狀態轉換??和推理過程?:其中??是VLM的提示。

  • 狀態轉換機制:子任務的狀態分為三種:待處理(pending)、進行中(doing)和已完成(done)。狀態轉換遵循以下原則:

    • 待處理 → 進行中:當且僅當上一個子任務已完成,并且VLM認為當前子任務應該開始。

    • 進行中 → 已完成:當且僅當當前子任務處于進行中狀態,并且VLM認為當前子任務已完成。

  • 注意力聚焦:在每個時間步?,VLM只需要關注一個子任務,具體如下:

    • 如果存在一個子任務??的狀態為進行中,則VLM關注該子任務。

    • 如果沒有子任務的狀態為進行中,則VLM關注第一個待處理的子任務?。

實驗

實驗設置

為了確保實時處理能力,論文選擇了輕量級的?GPT-4.1mini?作為指令分解的大型語言模型(LLM)和決策模型的視覺語言模型(VLM),并通過API訪問。這種選擇是為了確保模型在實際農業機器人上的實時性和高效性。

定性實驗

為了幫助讀者更好地理解AgriVLN方法,論文通過一個具體的實驗場景進行了定性實驗。實驗中,AgriVLN將指令分解為子任務列表,然后按順序完成每個子任務,從而實現整個指令的導航任務。具體步驟如下:

  • 指令分解:將復雜的指令分解為多個子任務,每個子任務都有明確的開始和結束條件。

  • 逐步執行:模型依次執行每個子任務,直到完成所有子任務,從而實現從起點到目標位置的導航。

圖片

上圖展示了定性實驗的一個代表性場景,其中AgriVLN成功地將指令分解為子任務,并按順序完成每個子任務。論文還提供了五個更多的例子,以展示AgriVLN在不同場景下的表現。

比較實驗

論文將AgriVLN與多種基線方法和最新方法進行了比較,以驗證其性能。具體設置如下:

  • 基線方法

    • Random:隨機選擇動作。

    • GPT-4.1mini with prompt:僅使用GPT-4.1mini進行決策,不使用子任務列表。

    • Human:人類專家的性能,作為參考標準。

  • 最新方法

    • SIA-VLN(Hong et al. 2020):基于規則的指令分解方法。

    • DILLM-VLN(Wang et al. 2025a):基于LLM的指令分解方法。

結果分析

圖片

  • Random:隨機方法的性能極差,證明了基準測試的有效性和公平性。

  • Human:人類專家的性能接近完美,證明了基準測試的合理性。

  • GPT-4.1mini with prompt:僅使用GPT-4.1mini進行決策時,成功率(SR)為0.33,導航誤差(NE)為2.76。

  • SIA-VLN:在簡單指令(子任務數量為2)時表現良好,但在復雜指令(子任務數量≥3)時性能下降。

  • DILLM-VLN:在簡單指令時表現良好,但在復雜指令時性能保持穩定,證明了LLM在指令分解中的有效性。

  • AgriVLN:在所有實驗場景中,AgriVLN的SR為0.47,NE為2.91,綜合性能超過了所有現有方法,盡管與人類表現仍有差距,但已展現出在農業領域視覺語言導航中的最佳性能。

消融實驗

不同視覺語言模型的影響

圖片

論文測試了三種輕量級VLM:Gemini-1.5 flashLlama-4 maverick?和?GPT-4.1mini。結果表明,GPT-4.1mini在成功率(SR)和導航誤差(NE)上均優于其他兩種VLM,因此被選為AgriVLN的VLM。

子任務列表模塊的影響

圖片

論文通過消融實驗驗證了子任務列表(STL)模塊的重要性。實驗結果表明,當子任務數量增加時,STL模塊對性能的提升作用愈發明顯。

不同場景分類下的性能

圖片

論文還統計了AgriVLN在A2A不同場景分類下的性能,發現盡管不同場景的指令平均長度相對一致,但AgriVLN在不同場景下的表現存在顯著差異。這可能是由于場景分類之間的細微差異(如背景雜亂、障礙物密度和光照條件)對模型的視覺感知能力提出了不同程度的挑戰。

結論與未來工作

  • 結論

    • 該論文提出了A2A基準測試和AgriVLN方法,通過引入子任務列表(STL)模塊,有效地提高了農業機器人在視覺語言導航任務中的性能,特別是在處理長指令時。

    • 然而,AgriVLN仍然存在一些不足之處,如對模糊指令的理解不準確和對空間距離的識別不準確。

  • 未來工作

    • 未來的工作將致力于改進這些缺點,并進一步探索在實際農業場景中部署該方法,以提高農業機器人的自主性和適應性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94811.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94811.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94811.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Zynq開發實踐(Verilog、仿真、FPGA和芯片設計)

【 聲明:版權所有,歡迎轉載,請勿用于商業用途。 聯系信箱:feixiaoxing 163.com】zynq最大的優勢,就是把arm和fpga結合在一起了。這樣一顆soc里面,就可以用軟件去驅動外設ip,這是之前沒有過的體驗…

LabVIEW刺激響應測量解析

?該 LabVIEW 程序用于刺激 - 響應測量,實現測試信號生成、響應采集及測量分析,涵蓋信號同步、并行處理等概念,用于設備總諧波失真(THD)等電信號特性測量場景,借助 LabVIEW 圖形化編程優勢,將復…

Boosting(提升法)詳解

一、引言在集成學習(Ensemble Learning)中,Boosting(提升法) 是一種非常經典且強大的方法。它通過將多個弱學習器(Weak Learners)進行迭代組合,逐步提升整體的預測性能,從…

寵物智能手機PetPhone技術解析:AI交互與健康監測的系統級創新

當你的寵物通過AI自主接聽視頻通話,背后是計算機視覺與邊緣計算的技術融合。全球首款寵物智能手機正在重新定義跨物種人機交互。近日,亞洲寵物展覽會上亮相的PetPhone引發了技術社區的廣泛關注。這款專為寵物設計的智能設備集成了多項技術創新&#xff0…

智慧零售商品識別誤報率↓74%!陌訊多模態融合算法在自助結算場景的落地優化

原創聲明:本文為原創技術解析文章,核心技術參數與架構設計引用自 “陌訊技術白皮書”,禁止未經授權的轉載與篡改。文中算法邏輯與實戰方案均基于陌訊視覺算法 v3.2 版本展開,所有實測數據均來自智慧零售場景下的真實部署環境。一、…

ArcGIS學習-9 ArcGIS查詢操作

前置操作加載數據修改坐標系修改單位屬性查詢單條件查詢打開安徽省縣界的屬性表多條件查詢值得注意的是,不加括號和前面加括號,查出來的結果一致(35條記錄)而后面加括號,查詢結果與之前的不一致(25條記錄&a…

A-Level物理課程全解析:知識點、學習計劃與培訓機構推薦

A-Level物理課程是國際教育體系中的重要科目,不僅為大學理工科專業打下基礎,也培養學生的科學思維與實驗能力。本文將從核心知識點解析、高效學習計劃制定,以及優質培訓機構推薦三個方面,為學生和家長提供全面、實用的指南。一、A…

Linux 進階之性能調優,文件管理,網絡安全

一、系統性能調優系統性能調優是 Linux 管理中的關鍵技能,它能顯著提升系統在不同應用場景下的表現。通過針對性的調優,可以解決資源瓶頸問題,提高服務響應速度,優化資源利用率。(一)CPU 性能調優知識點詳解…

【科普向-第五篇】MISRA C實戰手冊:規則與指令全解析

目錄 引言 1.1 起源與目的 1.2 規則體系結構 一.變量與類型(Rule 1–9) Rule 1.1 — 變量必須顯式初始化(Mandatory) Rule 1.2 — 使用固定寬度整數類型(Mandatory) Rule 1.3 — 避免未定義行為的類…

Custom SRP - Shadow Masks

截圖展示的是:近處實時陰影,遠處烘焙陰影1 Baking Shadows陰影讓場景更具層次感和真實感,但是實時陰影渲染距離有限,超出陰影距離的世界由于沒有陰影顯得很“平”.烘焙的陰影不會受限于陰影距離,可以與實時陰影結合解決該問題:最大陰影距離之內使用實時陰影最大陰影距離之外用烘…

Python爬蟲實戰:研究spidermonkey庫,構建電商網站數據采集和分析系統

1 引言 1.1 研究背景 互聯網數據已成為商業決策、學術研究的核心資源,網絡爬蟲作為數據獲取的主要工具,在靜態網頁時代發揮了重要作用。然而,隨著 AJAX、React、Vue 等技術的廣泛應用,超過 70% 的主流網站采用 JavaScript 動態生成內容(如商品列表滾動加載、評論分頁加載…

智能駕駛規劃技術總結

前言 本文主要對智能駕駛規劃技術相關知識進行初步探究和總結,以加深理解,及方便后續學習過程中查漏補缺。 分層規劃策略 尋徑 A*算法 概念 節點:網格化后的每一個最小單元父節點:路徑規劃中用于回溯的節點列表:需要不…

05 網絡信息內容安全--對抗攻擊技術

1 課程內容 網絡信息內容獲取技術網絡信息內容預處理技術網絡信息內容過濾技術社會網絡分析技術異常流量檢測技術對抗攻擊技術 2 對抗攻擊概述 2.1 對抗攻擊到底是啥? 咱們先舉個生活例子: 你平時看蘋果能認出來 —— 紅顏色、圓溜溜、帶個小揪揪。但如果…

【FPGA】VGA顯示-貪吃蛇

這個項目實現了一個完整的貪吃蛇游戲,使用Verilog HDL在FPGA上構建。項目包含了VGA顯示控制、按鍵消抖處理、游戲邏輯和圖形渲染等多個模塊,展示了數字邏輯設計的綜合應用。 項目概述 該設計使用硬件描述語言實現了經典貪吃蛇游戲的所有核心功能&#…

從PostgreSQL到人大金倉(KingBase)數據庫遷移實戰:Spring Boot項目完整遷移指南

📖 前言 在國產化浪潮的推動下,越來越多的企業開始將數據庫從國外產品遷移到國產數據庫。本文將以一個真實的Spring Boot項目為例,詳細介紹從PostgreSQL遷移到人大金倉(KingBase)數據庫的完整過程,包括遇到…

Docker 入門指南:從基礎概念到常見命令及高級工具詳解

Docker 入門指南:從基礎概念到常見命令及高級工具詳解 大家好!今天我們來聊聊 Docker 這個強大的容器化工具。如果你是一個開發者、運維工程師,或者只是對云計算和容器技術感興趣的人,Docker 絕對值得你深入了解。它可以幫助你輕松…

Redis數據持久化——RDB快照和Aof日志追加

Redis數據持久化數據持久化:將內存中的數據保存到磁盤中。作用:讓Redis服務重啟后可以恢復之前的數據。一、Redis數據持久化的方式:RDB(快照):將內存中Redis緩存的所有數據,都以二進制字符串的方…

淺聊達夢數據庫物理熱備的概念及原理

達夢數據庫(DM Database)的物理熱備份,核心是在數據庫不中斷業務(聯機) 的前提下,通過對數據庫物理文件(如數據文件、控制文件、日志文件等)的增量或全量復制,實現數據備…

C++ 中 ::(作用域解析運算符)的用途

C 中 ::(作用域解析運算符)的應用場景詳解 在 C 中,:: 被稱為 作用域解析運算符(Scope Resolution Operator),用于明確指定某個名字(變量、函數、類型等)所屬的命名空間或類作用域&a…

鴻蒙中CPU活動分析:CPU分析

1 CPU分析的核心概念與重要性 CPU活動分析(CPU Profiling)是性能優化的核心手段,它通過測量代碼執行時間,幫助開發者定位性能瓶頸。應用的響應速度直接影響用戶體驗,過長的加載時間或卡頓會導致用戶流失 1.1 為什么C…