強化學習 目標跟蹤
- Visual tracking by means of deep reinforcement learning and an expert demonstrator
- YOLO 檢測下基于 ETC-DDPG 算法的無人機視覺跟蹤
- 基于特征與深度強化學習方法的機器人視覺伺服技術研究
- 高性能可拓展視頻目標跟蹤算法研究
- 基于目標運動與外觀特征的多目標跟蹤算法研究
- 基于深度強化學習的多目標跟蹤技術研究
- Others
Visual tracking by means of deep reinforcement learning and an expert demonstrator
通過深度強化學習和專家演示進行視覺跟蹤,2019,42引用
研究背景與問題
??視覺目標跟蹤是計算機視覺中的一大難題,需在連續視頻幀中通過邊界框持續識別和定位目標對象,面臨遮擋、光線變化、快速運動和運動模糊等挑戰,且諸多實際應用要求實時且準確的預測。現有基于卷積神經網絡(CNNs)的方法存在計算量大、處理速度難達實時,以及基于強化學習(RL)的方法存在在線更新復雜、訓練階段多等問題。
研究思路與貢獻
??受強化學習中利用專家演示加速策略學習的啟發,研究者提出兩種新型跟蹤器A3CT和A3CTD。A3CT利用最先進跟蹤器的演示來學習有效的跟蹤策略;A3CTD則在跟蹤過程中利用同一專家跟蹤器來糾正自身行為。
方法與架構
??問題設定:將跟蹤問題定義為馬爾可夫決策過程(MDP),包含狀態、動作、狀態轉移和獎勵函數等要素。狀態由利用前一幀邊界框裁剪相鄰兩幀得到的圖像塊組成;動作是目標對象的相對運動向量,用于從先前邊界框預測當前邊界框;獎勵函數基于預測邊界框與真實邊界框的交并比(IoU)定義。
??智能體架構:跟蹤智能體通過深度神經網絡(DNN)同時維護策略和狀態價值函數的表示,網絡以兩個圖像塊為輸入,經卷積分支、全連接層、LSTM層等處理后輸出動作和狀態值。
??訓練過程:基于在線策略的異步Actor-Critic(A3C)強化學習框架進行端到端離線訓練,部分智能體進行傳統A3C學習,另一部分以監督方式模仿專家跟蹤器動作,并采用課程學習策略輔助訓練。
??跟蹤策略:A3CT自主跟蹤目標;A3CTD在跟蹤階段利用學習到的狀態價值函數評估自身和專家跟蹤器的性能,據此選擇輸出自身或專家的邊界框。
實驗與結果
??在GOT-10k、OTB-100、LaSOT、UAV123和VOT等基準數據集上的大量實驗表明,所提跟蹤器達到最先進性能且能實時運行。A3CT處理速度為90 FPS,A3CTD為50 FPS。例如,在GOT-10k測試集上,A3CT性能優于包括專家跟蹤器SiamFC在內的多數方法,A3CTD在A3CT基礎上進一步提升;在UAV123上,A3CTD也表現出色。
結論與未來工作
??A3CT和A3CTD在多個基準上表現優異,適合實時應用。未來將研究集成更多專家跟蹤器及專家池對跟蹤器性能的影響。
YOLO 檢測下基于 ETC-DDPG 算法的無人機視覺跟蹤
2025.6.17
這篇論文聚焦于提升無人機動態目標跟蹤的效率和精度,提出了結合DDPG算法與YOLO目標檢測技術的ETC-DDPG算法,具體內容如下:
研究背景與問題
??無人機憑借機動性強、成本低等優勢,在搜索巡邏、電力巡檢等任務中應用廣泛,對地面車輛的穩定跟蹤是其執行自主任務的關鍵能力。目前基于視覺的無人機跟蹤技術雖有優勢,但結合視覺圖像與深度強化學習的方法存在訓練過程不穩定、計算資源需求高等局限。
算法設計與優化
- 核心算法:ETC-DDPG算法引入事件觸發機制和課程學習來優化DDPG算法。事件觸發機制通過動態調整策略更新頻率,僅在目標狀態變化超出閾值時觸發更新,減少無效計算;課程學習構建分階段訓練框架,從基礎跟蹤任務逐步過渡到復雜飛行控制任務,提升無人機對復雜任務的適應性。
- 相關技術結合:采用YOLO進行目標檢測,其高檢測速度能確保無人機實時捕捉目標位置;DDPG算法適合處理連續動作空間,結合事件觸發機制和課程學習后,進一步提升了在跟蹤任務中的性能。
- 狀態與動作空間:狀態空間包含無人機與目標在x、y軸方向的距離、速度和加速度等6個維度;動作空間為三維連續空間,涉及偏航角、俯仰角和橫滾角。
- 獎勵函數:改進了獎勵函數,增加正獎勵機制,不僅懲罰不良行為,還獎勵良好行為,激勵智能體學習更優策略。
實驗與結果
-
實驗環境:基于ROS和Gazebo仿真框架,部署了四旋翼無人機和無人車,配備多種傳感器,采用MAVLink協議實現通信。
-
實驗結果:ETC-DDPG算法成功率達93.357%,相比原始DDPG算法和ETC-TD3算法,成功率分別提升56.175%和37.1%,能有效提升跟蹤效率和訓練穩定性,減少計算資源需求。
-
對比與消融實驗:對比實驗表明ETC-DDPG在動態目標跟蹤中性能更優;消融實驗驗證了事件觸發機制和課程學習的協同作用,事件觸發機制降低計算需求,課程學習加快收斂速度。
-
魯棒性實驗:調整超參數、權重初始化方式和神經元數量后,算法仍能穩定收斂,體現出良好的魯棒性。
這個圖表可堪稱完美
結論與未來工作
ETC-DDPG算法通過事件觸發機制和課程學習的協同作用,提升了無人機動態目標跟蹤性能。未來將研究多目標、多障礙物等復雜場景下無人機與地面車輛的空地協同,進一步提升系統的復雜環境適應能力。
基于特征與深度強化學習方法的機器人視覺伺服技術研究
2025.6 中國科學院大學 博士學位論文
這篇論文圍繞基于特征與深度強化學習方法的機器人視覺伺服技術展開研究,具體內容如下:
研究背景與問題
??機器人視覺伺服控制是融合計算機科學、機器視覺與機器人運動控制的先進技術,在多個領域應用廣泛。基于圖像的視覺伺服控制雖無需依賴目標精確模型且魯棒性較強,但面臨復雜目標形狀、非合作目標運動狀態的影響,存在圖像特征交互矩陣難獲精確解析形式、控制系統收斂范圍有限、視場限制等問題。
主要研究內容與方法
-
基礎理論建模
- 基于空間算子代數理論推導機器人運動學與動力學模型,包括各關節速度、加速度的解析表達及遞推關系,基于Newton-Euler方程給出動力學模型解析表達。
- 分析視覺系統建模方法,采用張正友標定法標定攝像機內/外參數,利用改進灰狼算法對機器人視覺伺服系統手眼參數進行全局尋優。
-
基于圖像矩特征的控制
- 針對一般輪廓目標的視覺伺服定位,提出6個圖像矩特征控制攝像機俯仰與偏航運動,還提出離線算法選擇最優圖像特征,其交互矩陣解耦性好、條件數小,擴展了控制器收斂范圍。
- 針對動態目標跟蹤中系統延遲影響精度的問題,提出基于自適應模糊的滑模控制算法,通過自適應模糊邏輯系統在線辨識并補償跟蹤誤差,搭建基于LabVIEW Real-Time系統的實驗平臺驗證。
-
基于深度強化學習的端到端控制
- 提出基于Soft-Actor-Critic算法的端到端深度神經網絡視覺伺服控制器,以圖像特征誤差及機器人狀態為輸入,機器人關節控制速度為輸出,避免位姿奇異。
- 設計新穎獎勵函數提高智能體訓練效率與穩定性,通過對比仿真實驗表明該方法在收斂域及控制精度上有優勢,搭建基于Ros2與IGH主站的實驗系統,驗證其能從任意初始位姿實現誤差收斂及亞像素級定位精度。
-
動力學視覺伺服控制
- 提出基于深度強化學習與時間延時估計的機器人動力學視覺伺服控制算法,設計眼在手配置的視覺伺服控制系統避免攝像機遮擋。
- 采用雙層控制架構,第一層為基于深度強化學習的端到端速度規劃控制器,第二層結合時間延時估計與自適應神經網絡構建動力學速度跟蹤控制器,利用Lyapunov理論驗證系統穩定性,通過仿真實驗驗證其對靜態目標的視覺定位控制效果。
實驗與結果
- 在靜態目標定位實驗中,所提圖像矩特征相比傳統特征收斂域更大、魯棒性更強。
- 動態目標跟蹤實驗中,自適應模糊補償的滑模控制算法跟蹤精度較傳統方法提升一個數量級。
- 基于深度強化學習的端到端控制在仿真和實際實驗中均實現亞像素級定位精度,且泛化能力較好。
- 動力學視覺伺服控制算法在名義模型、不同延遲時間及有系統擾動情況下,均能有效實現靜態目標視覺定位控制。
結論與未來工作
??論文提出的多種方法在機器人視覺伺服控制中表現優異。未來將探索構建完全解耦的圖像特征、將基于深度強化學習的端到端控制器應用于動態目標跟蹤任務、在實際機器人平臺驗證動力學視覺伺服控制器并改進優化等。
高性能可拓展視頻目標跟蹤算法研究
2024.12.15 博士學位論文 大連理工大學
??這篇論文圍繞高性能可拓展的視頻目標跟蹤算法展開研究,從精度、效率和可拓展性三個方面提出解決方案,具體內容如下:
研究背景與挑戰
??目標跟蹤在計算機視覺中占據核心地位,廣泛應用于安防監控、自動駕駛等領域。但實際應用中仍面臨諸多挑戰:精度上,現有算法邊框預測精度不足,難以捕捉長距離依賴關系;效率上,先進跟蹤模型計算量和參數量大,難以實時運行和在資源受限設備上部署;可拓展性上,傳統算法多針對單一子任務優化,缺乏泛化能力,難以應對復雜任務需求。
主要研究內容與方法
-
高精度視頻目標跟蹤算法
-
基于精確邊框與掩碼估計的高精度跟蹤算法:核心是精確的邊界框修正和掩碼預測模塊,能與任何跟蹤器結合提升精度。通過探索多種特征融合模塊和預測頭部設計,最終采用像素級相關層、關鍵點預測頭及輔助掩碼頭,可在增加少量計算負擔的情況下顯著提高跟蹤精度,在多項基準上表現優異。
-
基于時空Transformer的高精度跟蹤算法:構建全新跟蹤框架,用Transformer替代相關實現模板與搜索區域的深度交互,引入動態模板更新機制引入時序信息,通過簡潔的角點預測頭直接獲取目標邊框。該算法能充分利用視頻時空信息,簡化推理流程,在短時和長時跟蹤基準上均表現出色且能實時運行。
-
-
高效率視頻目標跟蹤算法
- 面向開放詞匯跟蹤的實時跟蹤算法:針對開放詞匯跟蹤效率問題,提出解耦注意力特征增強器、高速嵌入存儲、核插值三項關鍵技術,突破文本編碼器、特征增強器和實例解碼器的計算瓶頸,相比以往最優開放詞匯跟蹤器,運行速度提升20倍,精度相當甚至更優。
- 基于網絡結構搜索的輕量化跟蹤算法:提出適用于目標跟蹤任務的網絡結構搜索框架、輕量化搜索空間與搜索流程。搜索出的輕量化跟蹤器在保證精度的同時,減少了參數量和計算量,能在多種移動設備上實時運行,縮小學術研究與工業應用的差距。
- 面向開放詞匯跟蹤的實時跟蹤算法:針對開放詞匯跟蹤效率問題,提出解耦注意力特征增強器、高速嵌入存儲、核插值三項關鍵技術,突破文本編碼器、特征增強器和實例解碼器的計算瓶頸,相比以往最優開放詞匯跟蹤器,運行速度提升20倍,精度相當甚至更優。
-
可拓展視頻目標跟蹤算法
- 基于時空對應的多任務跟蹤算法(Unicorn):針對單目標與多目標跟蹤統一的挑戰,提出目標先驗作為任務切換開關,實現統一預測頭部;基于傳播和關聯優化目標,提出統一對應關系學習方法;采用統一網絡輸入和骨干網絡,實現輸入層面統一。該算法實現四項目標跟蹤任務在網絡架構和學習范式上的統一,在多項基準上表現優異。
- 基于物體發現與檢索的多任務跟蹤算法(UNINEXT):將六項目標跟蹤任務統一為提示詞引導的物體發現與檢索問題。通過提示詞生成模塊將多樣化提示轉化為統一格式,利用前融合模塊融合圖像與提示特征,通過物體發現與檢索模塊預測實例候選并選出最匹配實例。該算法能靈活跟蹤不同目標,在多項任務上表現卓越。
實驗與結果
- 高精度算法在多個短時和長時跟蹤基準上精度超越現有方法,同時保證實時性。
- 高效率算法在資源受限設備上速度提升顯著,且精度未明顯下降。
- 多任務算法在多項跟蹤任務中,與專用模型相比性能相當或更優,展現出良好的泛化能力和可拓展性。
結論與展望
??論文提出的算法在精度、效率和可拓展性上均有顯著提升。未來將探索更優骨干網絡,優化訓練與搜索算法以降低計算成本,引入新的時空信息提取機制,提升對未見過類別的跟蹤能力,進一步推動視頻目標跟蹤技術的發展。
基于目標運動與外觀特征的多目標跟蹤算法研究
2024.6 碩士學位論文 西安理工大學
??這篇論文圍繞多目標跟蹤中存在的軌跡混淆、軌跡斷裂和跟蹤丟失等問題展開研究,提出了相應的解決方案,具體內容如下:
研究背景與問題
??多目標跟蹤在智能監控、自動駕駛等領域需求日益增加,但復雜場景中存在諸多挑戰:目標相互接近導致軌跡混淆,目標被遮擋導致軌跡斷裂,目標長時間消失導致跟蹤丟失,這些問題影響了跟蹤的準確性和穩定性。
主要研究內容與方法
-
基于重匹配機制的多目標跟蹤算法
-
問題針對:解決目標相互接近導致的軌跡混淆問題。
-
核心方法:將第一次匹配未成功的高分檢測框與低分檢測框共同參與第二次匹配,提高高分檢測框的匹配概率,降低漏檢率。
-
流程:通過YOLOX獲取檢測框并分為高分和低分兩類,第一次匹配高分檢測框與軌跡,未匹配成功的高分檢測框與低分檢測框合并進行第二次匹配,最終處理未匹配的軌跡和檢測框。
-
-
基于特征匹配與校正的多目標跟蹤算法
-
問題針對:解決目標被遮擋導致的軌跡斷裂問題。
-
核心方法:提取低分檢測框和未匹配軌跡預測框的嵌入特征,計算余弦相似度,并基于未匹配時長設計可信度計算方法校正相似度,增強同一目標在不同幀間的連貫性。
-
流程:高分檢測框與軌跡首次匹配后,對低分檢測框和未匹配軌跡進行第二次特征匹配,利用校正后的相似度矩陣完成匹配。
-
-
基于動態目標匹配策略的多目標跟蹤算法
-
問題針對:解決目標長時間消失導致的跟蹤丟失問題。
-
核心方法:綜合考慮短期關聯中IOU和長期關聯中特征匹配的重要性,采用基于gate機制的動態匹配策略,實時更新gate值調整檢測框與軌跡的關聯方式。
-
流程:首次匹配后,對未匹配的檢測框和軌跡,通過IOU計算相似度矩陣,結合gate值判斷使用IOU或特征匹配的相似度,完成動態匹配。
-
實驗與結果
- 數據集:在Mot17和Mot20標準數據集上進行實驗,這兩個數據集包含復雜場景和密集人群,適合驗證算法性能。
- 結果:
- 基于重匹配機制的算法提升了高分檢測框利用率,在MOTA、IDF1等指標上優于Bytetrack等算法。
- 基于特征匹配與校正的算法減少了軌跡斷裂,FN指標顯著降低,MOTA指標接近先進水平。
- 基于動態目標匹配的算法在目標長時間消失場景中表現優異,MOTA指標與頂尖算法差距極小。
結論與展望
??論文提出的三種算法分別有效解決了軌跡混淆、斷裂和丟失問題,在多個數據集上驗證了有效性。未來將探索端到端多目標跟蹤模式,優化特征提取網絡以應對遮擋,平衡跟蹤速度與精度,并采用更先進的檢測算法提升整體性能。
基于深度強化學習的多目標跟蹤技術研究
2525.5.16 杭州電子科學技術大學 碩士學位論文
??一個非常標準的畢業設計的論文結構。
??這篇論文聚焦于基于深度強化學習的多目標跟蹤技術,旨在解決傳統多目標跟蹤方法在大規模、高動態目標場景中存在的實時性和準確性問題,具體內容如下:
研究背景與問題
??多目標跟蹤技術在雷達信號處理、智能駕駛等領域應用廣泛,但傳統方法在處理大規模目標時,目標狀態分配環節計算復雜度高,難以滿足實時性要求。隨機有限集理論雖能處理復雜環境下的多目標跟蹤問題,但在大規模場景中仍存在計算效率不足的問題。而強化學習在解決分配問題時展現出計算成本低的優勢,因此論文將隨機有限集理論與深度強化學習結合,以提升多目標跟蹤的實時性和準確性。
主要研究內容與方法
-
基于深度強化學習的目標狀態分配方法
-
將多目標跟蹤中的目標狀態分配問題建模為在線二分圖匹配模型,進一步轉化為馬爾可夫決策過程。
-
設計基于深度確定性策略梯度(DDPG)的強化學習模型,包含演員網絡和評論家網絡。演員網絡通過結構簡化降低計算量,輸出匹配決策;評論家網絡捕獲歷史匹配信息,優化策略網絡。
-
實驗表明,該方法在運行時間和匹配準確度上綜合性能優異,在大規模圖中耗時僅為匈牙利算法的30.91%,能滿足實時性要求。
-
-
基于隨機有限集和強化學習的多目標跟蹤方法
-
建立基于標簽多伯努利(LMB)濾波器的多目標跟蹤模型,利用聯合預測更新思想將多目標跟蹤狀態剪枝合并為分配問題。
-
引入上述基于深度強化學習的分配方法進行多目標狀態分配,傳遞多目標后驗密度,輸出多目標航跡信息。
-
仿真實驗證實,該方法在保證跟蹤準確性的同時,有效提高了實時性,滿足實際應用需求。
-
實驗與結果
- 在不同規模的二分圖數據集上,所提深度強化學習分配方法相比基于圖神經網絡、貪婪策略等方法,在匹配質量和運行時間上綜合表現更優。
- 在多目標跟蹤仿真場景中,與基于Murty算法、Gibbs采樣的LMB濾波器及GLMB濾波器相比,結合深度強化學習的LMB濾波方法(LMB-DRL)在運行時間上優勢顯著,同時保持了較高的跟蹤精度,平均OSPA距離與傳統方法接近。
結論與展望
??論文提出的方法有效提升了多目標跟蹤的實時性和準確性。未來將進一步優化算法的收斂速度和穩定性,探索自適應調整機制以適應動態環境,并拓展算法在無人駕駛、智能監控等領域的應用。
Others
The use of reinforcement learning algorithms in object tracking: a systematic literature review
2024,引用9
強化學習算法在物體追蹤中的應用:系統文獻綜述
Deep reinforcement learning in computer vision: a comprehensive survey
2022,引用262
計算機視覺中的深度強化學習:全面概述
Deep learning in multi-object detection and tracking: state of the art
2021,引用321
多目標檢測與跟蹤中的深度學習:最新進展
Analysis Based on Recent Deep Learning Approaches Applied in Real-Time Multi-Object Tracking: A Review
2021,引用45
基于近期深度學習方法的實時多目標跟蹤分析綜述
參考文章:基于強化學習的目標跟蹤論文合集
深度強化學習的視覺追蹤