基于YOLO-NAS-Pose的無人機象群姿態估計:群體行為分析的突破

導讀

應對氣候變化對非洲象的生存威脅,本研究創新采用無人機航拍結合AI姿態分析技術,突破傳統觀測局限。團隊在肯尼亞桑布魯保護區對比測試DeepLabCut與YOLO-NAS-Pose兩種模型,首次將后者引入野生動物研究。通過檢測象群頭部、脊柱等關鍵點(50像素分辨率),YOLO-NAS-Pose在RMSE、PCK、OKS等指標上全面超越實驗室常用工具,實現多目標行為動態解析。該技術突破為裂變-融合社會結構的大象群體行為研究提供高精度自動化解決方案,推動無人機生態監測在保護生物學中的應用進程。>>更多資訊可加入CV技術群獲取了解哦~

圖片1.png

論文題目:

Whole-Herd Elephant Pose Estimation from Drone Data for Collective Behavior Analysis

論文鏈接:

https://arxiv.org/pdf/2411.00196


目錄

一、方法

數據集

千款模型+海量數據,開箱即用!

DeepLabCut工作流程

YOLO-NAS-Pose工作流程

性能評估

無需代碼,訓練結果即時可見!

從實驗到落地,全程高速零代碼!

二、實驗結果

三、討論

四、結論


一、方法

  • 數據集

本研究采用配備廣角攝像頭的無人機技術觀測象群,確保單幀畫面可呈現整個群體。無人機數據采集帶來特定挑戰。"拯救大象"野外團隊在保證數據質量最大化的同時,盡可能減少對大象的干擾以捕捉真實行為。此前研究表明無人機會引發大象不同程度的反應。雖然更高分辨率數據更具優勢,但使用多架無人機可能改變大象自然行為。為此,無人機在肯尼亞允許的最高飛行高度(400英尺)進行操作,通過穩定云臺平臺以29幀/秒、3840×2160分辨率拍攝視頻。研究期間無人機固定于設定高度進行俯拍,確保視角統一。在該飛行高度下,視頻中幼象從鼻到尾約占8像素,成年象最多占70像素。圖1展示了無人機視頻的示例幀。

圖片2.png

研究重點識別與社交行為相關的關鍵點,如頭部朝向和耳朵扇動等。因此選擇圖2所示的8個關鍵點作為姿態估計目標。

圖片3.png

數據集包含23段視頻,每段約5分鐘時長。從中選取俯拍幀,最終得到包含1308頭大象的133幀圖像。基于這些幀創建了人工標注的訓練數據集,包括邊界框和圖2定義的關鍵點。標注時,對特別幼小的象崽若無法辨別耳朵,則僅標注脊柱關鍵點,耳朵標記為"遮擋"。

標注數據集按90-10-10比例劃分為訓練集-驗證集-測試集。測試集來自完全獨立的四段視頻,確保與訓練集和驗證集無視頻來源重疊。

  • 千款模型+海量數據,開箱即用!

平臺匯聚國內外開源社區超1000+熱門模型,覆蓋YOLO系列、Transformer、ResNet等主流視覺算法。同時集成300+公開數據集,涵蓋圖像分類、目標檢測、語義分割等場景,一鍵下載即可投入訓練,徹底告別“找模型、配環境、改代碼”的繁瑣流程!

IMG_2734.GIF

  • 預處理

在進入任一工作流程之前,都要對數據進行預處理,以滿足 YOLOv5 模型對對象尺寸的要求。標記的視頻幀被平鋪為 800x800 像素,窗口間距有 33% 的重疊,以確保幀內大象有合適的對象尺寸。然后使用以下兩個工作流程對數據進行姿態估計。

  • DeepLabCut工作流程

  • 大象檢測器

首先采用YOLOv5模型和MegaDetector預訓練模型對前文定義的數據集進行微調。這些模型被訓練用于生成畫面中大象的邊界框。

當預測出邊界框后,以檢測框為中心截取正方形圖像,其邊長取邊界框最大尺寸增加20%余量。這些圖像塊隨后被調整為100×100像素。該格式用于訓練DeepLabCut,通過提供居中放大的動物圖像來消除背景不一致帶來的干擾。

  • DeepLabCut

使用姿態數據集訓練DeepLabCut模型。數據被轉換為DLC訓練格式,模型訓練80萬次迭代直至損失收斂。

  • YOLO-NAS-Pose工作流程

為了訓練 YOLO-NAS-Pose 網絡,使用了與訓練檢測器和 DeepLabCut 工作流程相同的數據集,并添加了手動注釋的姿勢。然后對模型進行訓練,以提供整個圖像的邊界框和姿勢。

  • 性能評估

采用獨立測試集評估兩種工作流程。YOLOv5檢測器與YOLO-NAS-Pose的邊界框準確性通過平均精度均值(mAP)評估。兩種工作流程的姿態估計均采用均方根誤差(RMSE)、正確關鍵點百分比(PCK)和物體關鍵點相似度(OKS)進行評估。為保證公平比較,由于DeepLabCut僅能在提取的邊界框上進行姿態估計,評估時僅選取YOLO-NAS-Pose工作流程中正確檢測的邊界框。

圖片4.png

為識別正確檢測目標,YOLO-NAS-Pose輸出的邊界框經非極大值抑制(NMS)處理,最大重疊閾值設為0.5。經過去重的邊界框按置信度排序后與真實標注計算交并比(IoU)。當預測框與真實標注框IoU≥0.5時視為候選匹配,若多個預測框對應同一真實框,則選取置信度最高者。

  • 可視化視頻追蹤

雖然連續視頻并非訓練或定量評估的必要條件,但個體連續影像對定性評估大有助益。通過DeepSORT算法對每幀檢測個體生成追蹤視頻片段。該方法通過比較圖像塊位置、嵌入特征和物體運動動量來識別視頻中的連續目標。由于部分個體分辨率過低,本研究排除邊界框小于50像素的幼象,重點分析成年象行為。最終從訓練集、驗證集和測試集的原始視頻中提取25段視頻用于姿態估計評估。

如果你也想要使用模型進行訓練或改進,Coovally——新一代AI開發平臺,為研究者和產業開發者提供極簡高效的AI訓練與優化體驗!Coovally支持計算機視覺全任務類型,包括目標檢測、文字識別、實例分割、并且即將推出關鍵點檢測、多模態3D檢測、目標追蹤等全新任務類型。

  • 無需代碼,訓練結果即時可見!

在Coovally平臺上,上傳數據集、選擇模型、啟動訓練無需代碼操作,訓練結果實時可視化,準確率、損失曲線、預測效果一目了然。無需等待,結果即訓即看,助你快速驗證算法性能!

圖片

  • 從實驗到落地,全程高速零代碼!

無論是學術研究還是工業級應用,Coovally均提供云端一體化服務:

  • 免環境配置:直接調用預置框架(PyTorch、TensorFlow等);

  • 免復雜參數調整:內置自動化訓練流程,小白也能輕松上手;

  • 高性能算力支持:分布式訓練加速,快速產出可用模型;

  • 無縫部署:訓練完成的模型可直接導出,或通過API接入業務系統。

!!點擊下方鏈接,立即體驗Coovally!!

平臺鏈接:https://www.coovally.com

無論你是算法新手還是資深工程師,Coovally以極簡操作與強大生態,助你跳過技術鴻溝,專注創新與落地。訪問官網,開啟你的零代碼AI開發之旅!


二、實驗結果

在初始工作流程中發現,采用YOLOv5標準預訓練權重的檢測效果優于megadetector權重。邊界框檢測器的mAP指標如表1所示。

圖片5.png

測試集的各項評估指標結果(包括各關鍵點及整體平均值)展示在表2。

圖片6.png

圖4展示了DeepLabCut在提取圖像塊上的應用效果。補充材料包含帶有姿態估計疊加的訓練驗證集追蹤視頻,既有效果良好的案例,也存在耳部檢測不準的情況——雖然脊柱對齊效果穩定,但在快速運動或非常規姿態時耳尖檢測容易出現偏差。

圖片7.png

圖5展示了YOLO-NAS-Pose在單幀視頻中的定性結果。整體關鍵點標注準確,僅漏檢一只幼象,但"前額"關鍵點持續偏置于頭部后方。

圖片8.png


三、討論

本研究開創了無人機視頻數據自動姿態估計在野生動物研究中的應用。實驗結果對野生動物行為監測的改進提供了重要啟示。

從表2指標可見,兩種模型在測試集均表現合理。YOLO-NAS-Pose在所有指標上均表現良好(雖未達完美),證明其作為野生動物行為研究工具的潛力。但當前精度尚未達到全自動化流程要求,仍需進一步優化。

圖片9.png

需注意關鍵點準確度差異:DeepLabCut耳尖檢測精度較低(因其運動范圍大且標注置信度最低),但髖部成為最差關鍵點(可能因缺乏相鄰參考點)。這與YOLO-NAS-Pose形成反差——后者髖部表現最佳卻在前額關鍵點遇到困難(可能因象鼻伸展時難以定位面部)。未來將探究這些差異成因。

定性分析顯示,DeepLabCut整體表現良好,但存在耳部追蹤失敗(尤其在幼象上表現為默認"中立"耳姿)。值得注意的是,全幀多象姿態估計與個體圖像塊估計各有優勢:前者簡化工作流程利于自動化,后者通過篩選成年象可避免低分辨率幼象的干擾,且能平衡訓練集姿態分布。

雖然DeepLabCut未超越YOLO-NAS-Pose,但在小樣本場景(約100幀)仍具價值。這對標注數據有限但需快速獲取全視頻姿態的研究尤為重要。

展望未來,針對低分辨率姿態估計,通過分析視頻序列變化檢測復雜關鍵點是重要方向。單幀耳部定位的困難凸顯了當前逐幀估計的局限,后續可探索光流或循環神經網絡等跨幀分析方法來提升運動連續性檢測精度。


四、結論

這項研究通過比較不同的姿態估計技術,在將自動行為分析方法納入野生動物研究方面取得了重大進展。它為在自然棲息地對野生動物行為進行更復雜的研究鋪平了道路,這些研究涉及大范圍場景中的多個個體。研究結果表明,YOLO-NAS-Pose 是一種可行且有吸引力的姿態估計方法,它提供了簡單明了的工作流程和卓越的性能指標。不過,還需要進一步的開發和改進。這項工作的意義超出了對大象行為的研究,它為未來基于無人機的野生動物行為研究在不同物種和生態環境中的發展提供了寶貴的見解。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85559.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85559.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85559.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

8.RV1126-OPENCV 視頻中添加LOGO

一.視頻中添加 LOGO 圖像大體流程 首先初始化VI,VENC模塊并使能,然后創建兩個線程:1.把LOGO灰度化,然后獲取VI原始數據,其次把VI數據Mat化并創建一個感興趣區域,最后把LOGO放感興趣區域里并把數據發送給VENC。2.專門獲…

AI+3D 視覺重塑塑料袋拆垛新范式:遷移科技解鎖工業自動化新高度

在工業自動化浪潮席卷全球的當下,倉儲物流環節的效率與精準度成為企業降本增效的關鍵戰場。其中,塑料袋拆垛作為高頻、高重復性的作業場景,傳統人工或機械臂操作面臨著諸多挑戰。遷移科技,作為行業領先的 3D 工業相機和 3D 視覺系…

MATLAB實戰:視覺伺服控制實現方案

以下是一個基于MATLAB的視覺伺服控制項目實現方案,結合實時圖像處理、目標跟蹤和控制系統設計。我們將使用模擬環境進行演示,但代碼結構可直接應用于真實硬件。 系統架構 圖像采集 → 目標檢測 → 誤差計算 → PID控制器 → 執行器控制 完整代碼實現 …

RequestRateLimiterGatewayFilterFactory

一、功能說明 RequestRateLimiterGatewayFilterFactory 是 Spring Cloud Gateway 的流量控制組件,用于實現 API 請求速率限制,核心功能包括: 限制單位時間內的請求數量(如每秒10次)防止服務被突發流量擊垮&#xff0…

鴻蒙倉頡語言開發實戰教程:購物車頁面

大家上午好,倉頡語言商城應用的開發進程已經過半,不知道大家通過這一系列的教程對倉頡開發是否有了進一步的了解。今天要分享的購物車頁面: 看到這個頁面,我們首先要對它簡單的分析一下。這個頁面一共分為三部分,分別是…

AXURE安裝+漢化-Windows

安裝網站:https://www.axure.com/release-history/rp9 Axure中文漢化包下載地址 鏈接:https://pan.baidu.com/s/1U62Azk8lkRPBqWAcrJMFew?pwd5418 提取碼:5418 下載完成之后,crtlc lang文件夾 到下載的Axure路徑下 雙擊點進這個目錄里面。ctrlv把lan…

【Oracle】視圖

個人主頁:Guiat 歸屬專欄:Oracle 文章目錄 1. 視圖基礎概述1.1 視圖的概念與特點1.2 視圖的工作原理1.3 視圖的分類 2. 簡單視圖2.1 創建簡單視圖2.1.1 基本簡單視圖2.1.2 帶計算列的簡單視圖 2.2 簡單視圖的DML操作2.2.1 通過視圖進行INSERT操作2.2.2 通…

Lua和JS的垃圾回收機制

Lua 和 JavaScript 都采用了 自動垃圾回收機制(GC) 來管理內存,開發者無需手動釋放內存,但它們的 實現機制和行為策略不同。下面我們從原理、策略、優缺點等方面來詳細對比: 🔶 1. 基本原理對比 特性LuaJa…

Kafka 的優勢是什么?

Kafka 作為分布式流處理平臺的核心組件,其設計哲學圍繞高吞吐、低延遲、高可擴展性展開,在實時數據管道和大數據生態中具有不可替代的地位。 一、超高吞吐量與低延遲 1. 磁盤順序 I/O 優化 突破磁盤瓶頸:Kafka 將消息持久化到磁盤&#xff…

車載診斷架構 --- DTC消抖參數(Trip Counter DTCConfirmLimit )

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

【C++】類的析構函數

類的析構函數 1. 作用:1.1 當對象的地址空間釋放的時候,會自動調用析構函數(對象可以主動調用析構函數)1.2 實際應用:往往用來做收尾工作 2. 語法規則:示例代碼:析構函數使用 1. 作用: 1.1 當對象的地址空…

重拾Scrapy框架

基于Scrapy框架實現 舔狗語錄百度翻譯 輸出結果到txt文檔 爬蟲腳本 from typing import Iterable, Any, AsyncIteratorimport scrapy import json from post.items import PostItemclass BaidufanyiSpider(scrapy.Spider):name "baidufanyi"allowed_domains [&quo…

【實例】事業單位學習平臺自動化操作

目錄 一、創作背景: 二、實現邏輯: 三、代碼分析【Deepseek分析】: 1) 主要功能 2)核心組件 2.1 GUI界面 (AutomationApp類) 2.2 瀏覽器自動化 2.3 平臺特定處理 3) 關鍵技術 4)代碼亮點 5)總結 四、運行截圖: 五、程序代碼: 特別聲明:***本代碼僅限編程學…

CSS篇-1

1. CSS 有哪些基本選擇器?它們的權重是如何表示的? 這是一個關于 CSS 基礎且極其重要的問題,因為它直接關系到我們如何精準地控制頁面元素的樣式,以及在樣式沖突時瀏覽器如何決定哪個樣式生效。理解 CSS 選擇器及其權重(或稱為“優先級”或“特殊性”),是編寫高效、可維…

封裝一個Qt調用動態庫的類

封裝一個Qt調用動態庫的類 由于我的操作系統Ubuntu系統,我就以Linux下的動態庫.so為例了,其實windows上的dll庫調用方式是一樣的,如果你的Qt項目是windows的,這篇文章代碼可以直接使用。 一般情況下我們對外輸出都是以動態庫的形式封裝的,這樣我們更新版本的時候就很方便…

陰盤奇門 api數據接口

陰盤奇門,又稱"道家陰盤遁甲"或"法術奇門",與陽盤奇門(奇門排盤)并稱"奇門雙雄"。由王鳳麟教授整合道家三式(奇門、六壬、太乙)精髓創立,獨創行為風水與立體全息預測技術,廣…

【計算機網絡】第3章:傳輸層—可靠數據傳輸的原理

目錄 一、PPT 二、總結 (一)可靠數據傳輸原理 關鍵機制 1. 序號機制 (Sequence Numbers) 2. 確認機制 (Acknowledgements - ACKs) 3. 重傳機制 (Retransmission) 4. 校驗和 (Checksum) 5. 流量控制 (Flow Control) 協議實現的核心:滑…

C#實現圖片縮略圖生成:多種模式詳解與實踐

C#實現圖片縮略圖生成:多種模式詳解與實踐 在圖像處理的場景中,生成圖片縮略圖是一項常見且實用的功能。無論是搭建圖片展示網站,還是開發本地圖片管理工具,按需生成合適尺寸的縮略圖,能夠有效減少圖片傳輸和顯示所需…

2025年- H57-Lc165--994.腐爛的橘子(圖論,廣搜)--Java版

1.題目描述 2.思路 3.代碼實現 import java.util.LinkedList; import java.util.Queue;public class H994 {public int orangesRotting(int[][] grid) {//1.獲取行數int rowsgrid.length;int colsgrid[0].length;//2.創建隊列用于bfsQueue<int[]> quenew LinkedList<…

005 flutter基礎,初始文件講解(4)

書接上回&#xff0c;今天繼續完成最后的講解&#xff1a; class _MyHomePageState extends State<MyHomePage> {int _counter 0;void _incrementCounter() {setState(() {_counter;});}可以看到&#xff0c;這里的_MyHomePageState是一個類&#xff0c;繼承于 State&l…