FastTracker：實時準確的視覺跟蹤

摘要

https://arxiv.org/pdf/2508.14370
傳統的多目標跟蹤(MOT)系統主要設計用于行人跟蹤，通常對其他物體類別的泛化能力有限。本文提出了一種能夠處理多種物體類型的通用跟蹤框架，特別強調在復雜交通場景中的車輛跟蹤。所提出的1方法包含兩個關鍵組件：(1)一種能夠增強嚴重遮擋物體身份保持能力的遮擋感知重識別機制；(2)一種利用語義場景先驗（如車道方向、人行橫道和道路邊界）來提高軌跡連續性和準確性的道路結構感知軌跡段優化策略。此外，我們引入了一個新的基準數據集，包含具有幀級跟蹤標注的多樣化車輛類別，專門用于支持車輛跟蹤方法的評估。大量實驗結果表明，所提出的方法在新引入的數據集和幾個公共基準測試上均實現了穩健的性能，突顯了其在通用對象跟蹤中的有效性。雖然我們的框架是為通用多類別跟蹤設計的，但它在傳統基準測試上也表現出色，在MOT17和MOT20測試集上分別取得了66.4和65.7的HOTA分數。代碼和基準測試可在以下網址獲取：https://github.com/Hamidreza-Hashempoor/FastTracker。
索引術語—視覺跟蹤

一、引言

多目標跟蹤(MOT)在智能監控和自動駕駛等計算機視覺應用中扮演著關鍵角色。盡管取得了顯著進展，但由于目標相似性、頻繁遮擋以及物體不斷進出場景等因素，它仍然是一個具有挑戰性的問題[1]。解決MOT的廣泛采用方法是基于檢測的跟蹤范式[2]，其中目標檢測器首先在每一幀中識別候選目標，然后由單獨的跟蹤模塊將這些檢測結果與現有軌跡相關聯。這種關聯通常被表述為匹配問題，依賴于當前檢測與現有軌跡段之間的計算相似度。匈牙利算法[3]等算法已被用于有效解決這一分配任務。檢測算法還為每個邊界框提供置信度分數，反映檢測結果為有效目標的可能性。通常，高置信度檢測對應于真陽性，而較低分數通常表示假陽性。

一般來說，高置信度檢測預期對應于真陽性，而較低分數通常表示假陽性。然而，許多現有基于檢測的跟蹤框架的性能往往被高估，因為它們主要在單類別場景（最顯著的是行人跟蹤）上進行基準測試，其中檢測器針對該類別進行訓練和優化[2]。雖然這種專業化可以產生令人印象深刻的準確性，但它并不能反映現實世界應用中的挑戰，在現實應用中必須同時檢測和跟蹤多種物體類別。當檢測模型擴展到處理多個物體類別時，檢測準確性通常會下降，導致跟蹤性能相應下降[4]。這種差異突顯了需要能夠很好地泛化到多類別設置并在更現實的部署條件下保持穩健的跟蹤解決方案。

基于單類別跟蹤的局限性，多類別物體跟蹤需要仔細考慮不同類別之間的置信度分布。在實踐中，高置信度檢測通常更可靠，一般對應于真陽性，而低置信度檢測則容易產生假陽性。這種可靠性差異促使級聯匹配策略的發展，如ByteTrack[5]中采用的策略，其中高置信度檢測在初始匹配階段被優先考慮，隨后將低置信度候選與先前未匹配的軌跡進行選擇性匹配。

受此方法啟發，我們的跟蹤框架引入了一個明確區分高置信度和低置信度檢測的兩階段匹配過程。在第一階段，我們使用寬松的相似度閾值將高置信度檢測與活動軌跡段相關聯，從而最大化真陽性關聯的召回率。在第二階段，我們使用更嚴格的相似度約束處理剩余的低置信度檢測，確保僅為未匹配的軌跡考慮最合理的關聯。
在這里插入圖片描述

為了評估檢測與軌跡段之間的相似度，我們的方法主要依賴于運動線索，包括空間接近性、邊界框幾何形狀和幀間速度一致性。雖然基于外觀的特征在許多跟蹤系統中常用于增強遮擋下的魯棒性，但它們通常需要引入相當大的計算開銷的深度卷積網絡[6]。這使得它們不太適合實時在線應用。與依賴此類重型模型[7]不同，我們的方法采用兩種互補策略來提高挑戰性場景中的魯棒性，而不依賴于基于CNN的重識別網絡。首先，我們設計了一個框架來處理遮擋，使物體在暫時消失后能夠重新識別。其次，我們利用高級環境上下文（如道路布局、雙向交通結構和人行橫道）來指導重識別并優化軌跡段。這兩個組件顯著提高了跟蹤可靠性，而不會產生高計算成本。我們的跟蹤器與現有方法相比的整體性能趨勢，通過多個指標測量，如圖1所示。

作為第一個組件，我們通過設計一種不依賴于視覺重識別特征的機制來解決多目標跟蹤中的遮擋挑戰。當目標暫時從檢測中消失時，我們使用其置信度歷史和與附近物體的空間交互來推斷遮擋事件。在物體被同一類別物體遮擋的情況下，我們提出了一種基于幾何重疊的啟發式方法來識別被覆蓋的目標。我們的方法引入了一種新的覆蓋度量，以更準確地檢測傳統IoU度量失效的遮擋場景，特別是在遮擋物體和被遮擋物體之間存在尺寸差異的情況下。一旦目標被標記為遮擋，我們通過調節速度和尺寸變化來調整其卡爾曼濾波器更新，防止不切實際的漂移并確保重新識別過程中的穩定性。這種策略使在擁擠和動態環境中更可靠的身份保持成為可能。我們提出的遮擋處理的有效性在圖2中進行了視覺演示。
在這里插入圖片描述

為進一步提高跟蹤一致性，我們整合了從周圍環境派生的場景級結構先驗。特別是，我們將道路和人行橫道建模為矩形區域，其中每個區域都用主要入口和出口邊緣進行標注。這些邊緣對定義了一個預期運動方向，我們用它來估計該區域內物體的軌跡角度閾值。例如，在單向道路上，允許的運動被限制在與交通流對齊的狹窄角度帶內；與此角度的顯著偏差被視為物理上不可能的。在跟蹤過程中，如果軌跡違反此上下文約束，我們將將其投影回允許的運動通道以糾正潛在的漂移。這種投影對于從由遮擋或檢測器噪聲引起的跟蹤故障中恢復特別有用，其中不正確的卡爾曼更新或錯誤檢測通常會導致錯位的軌跡。通過強制環境感知的運動一致性，我們在結構化交通場景中實現了更可靠的軌跡段關聯并減少了身份切換。

雖然多目標跟蹤方面取得了顯著進展，但大多數現有基準測試——如MOT17[8]和MOT20[9]——幾乎完全專注于行人跟蹤。一些數據集針對車輛跟蹤[10]-[12]；然而，它們通常涉及少數物體類別，并在相對簡單的駕駛環境中捕獲，缺乏真實世界交通場景的復雜性，沒有不同時段（包括白天和夜晚）各種光照條件下的CCTV視圖。為了解決這一差距，我們引入了一個專門設計用于多類別跟蹤的新基準，包括城市CCTV視圖中的行人和各種類型的車輛。我們的數據集包含多樣化的物體類別，如汽車、多種卡車類型、公共汽車、摩托車等，以及復雜城市環境中的行人目標。它捕獲了具有頻繁遮擋、密集交叉口和多方向物體移動的挑戰性場景，為評估多類別跟蹤算法提供了一個現實且要求苛刻的設置。通過捕獲各種環境中的復雜交互，此基準提供了更現實的評估環境，并鼓勵開發超越僅行人設置的跟蹤算法，為研究社區提供了寶貴的資源，并促進多類別跟蹤領域的進展。

本文的主要貢獻總結如下：

我們提出了一個穩健的多類別多目標跟蹤框架，能夠超越行人跟蹤，并在復雜城市環境中對各種車輛類別有效執行。
我們設計了一個輕量級遮擋處理模塊，不依賴于外觀特征或任何深度重識別網絡，僅使用空間線索和幾何覆蓋來維持軌跡一致性。
我們利用基于道路幾何和場景語義（如道路、人行橫道）的環境感知約束來強制執行合理的物體運動并提高重識別準確性。
我們發布了一個新的用于多類別車輛和行人跟蹤的基準數據集，具有多樣化的物體類別和挑戰性場景，如CCTV視圖中的遮擋和多方向交通流。
我們的方法在MOT16、MOT17和MOT20測試集上取得了強勁性能，HOTA分數分別為66.0、66.4和65.7——在準確性方面優于大多數最先進的跟蹤器。

二、相關工作

在基于檢測的跟蹤范式[5]，[13]-[15]中，首先獲得物體檢測（通常由深度卷積網絡[16]，[17]生成），然后在幀之間關聯以形成軌跡。許多框架使用幾何和基于外觀的線索的組合來計算檢測與現有軌跡段之間的相似度。雖然基于外觀的特征已被廣泛采用，特別是通過深度學習方法如DeepSORT[13]和FeatureSORT[7]或其采用狀態空間模型（SSM）[18]的擴展[19]，但它們需要額外的重識別（Re-ID）網絡，這顯著增加了計算負載和內存使用。這種附加的復雜性通常限制了它們在實時或資源受限應用中的適用性。

相比之下，幾種輕量級跟蹤方法避免了深度外觀模型，而是依賴于手工設計或基于幾何的特征，特別是在多類別或多交通環境中，速度和可擴展性至關重要。最著名的例子之一是SORT[3]，它僅使用卡爾曼濾波和通過匈牙利算法的基于運動的關聯，提供了令人印象深刻的快速和簡單。最近的工作顯示了對這種高效設計的重新興趣。例如，OC-SORT[20]通過改進觀測一致性建模增強了傳統的僅運動跟蹤，而BoT-SORT[21]引入了一個將跟蹤邏輯與重型特征提取解耦的模塊化框架。這些方法表明，即使沒有深度外觀嵌入也可以實現穩健的跟蹤，特別是當運行時效率是優先考慮時。

對于遮擋處理，雖然ByteTrack等高效方法通過關聯低置信度檢測來解決部分遮擋，但它們在高度擁擠的場景中性能會下降，在這種場景中，遮擋的檢測變得模糊且頻繁。為了提高魯棒性，許多最近的方法使用CNN[22]集成基于外觀的重識別特征，這使得在遮擋后能夠更好地恢復身份。然而，這些方法產生相當大的計算開銷，使它們不太適合實時或資源受限的應用。像PD-SORT[23]和SparseTrack[24]這樣的更輕量級替代方案采用純粹基于幾何的策略來處理遮擋，使用從2D邊界框派生的偽深度線索。雖然這些模型避免了基于CNN的特征，但它們依賴于相機視點假設和簡單的深度啟發式方法，這在非理想視角、透視失真或快速場景變化下可能會失敗。此外，此類方法中的基于深度的級聯關聯在目標具有相似深度或長期遮擋導致身份漂移時可能會遇到困難。我們反而提出了一種不依賴于任何特定相機視點假設的遮擋處理機制，并避免強制基于深度的級聯匹配，從而減輕了與擁擠場景中透視失真和模糊空間接近性相關的限制。

先前的工作已經探索了使用環境上下文來支持物體跟蹤，盡管通常是以有限或間接的方式。例如，[25]和MENet[26]使用預定義的興趣區域（ROIs）將跟蹤限制在可駕駛區域內，有效地丟棄這些區域外的檢測。然而，這些方法不會糾正或調整由于噪聲或遮擋而超出ROIs的軌跡段。在多攝像機跟蹤領域，許多方法利用上下文區域（如入口和出口區域）來指導跨攝像機關聯（例如Chai等人[27]），但此類策略通常不會利用細粒度的單攝像機環境布局來優化軌跡。相比之下，我們的方法整合了高級場景結構，如道路方向、雙向交通和人行橫道，以調整違反可行運動模式的軌跡段。這種環境感知校正是幾何驅動的、輕量級的，并且在不依賴于基于CNN的模塊的情況下運行，從而在具有復雜布局約束的城市場景中提高了跟蹤一致性和減少了ID切換。

幾個基準測試已被引入用于車輛或多類別物體跟蹤，但每個都有局限性，這在現實世界的城市監控上下文中留下了改進空間。Waymo Open Dataset[11]提供了跨越多個城市的大型LiDAR和相機數據，用于自動駕駛，支持具有高質量標簽的多個車輛類別。然而，它主要關注前向車輛安裝視圖和高速公路場景，這與城市CCTV視圖顯著不同。KITTI Tracking[10]是另一個廣泛使用的基準，具有汽車、行人和騎自行車者的標注，但它在場景多樣性、類別多樣性和規模方面仍然有限，特別是在擁擠或被遮擋的城市交叉口。LMOT[28]引入了一個具有低光條件的挑戰性夜間基準，但它缺乏多類別車輛跟蹤和其他光照條件。VETRA[29]提供了引入尺度變化和透視失真的空中車輛跟蹤數據，但它僅限于單類別跟蹤和俯視視角，這與地面監控系統不太相關。相比之下，我們提出的基準——盡管規模適中——針對多類別跟蹤，強調城市CCTV視圖，這在現有數據集中代表性不足。它包括多樣化的物體類別、各種光照條件和挑戰性遮擋場景，如密集交叉口和雙向交通。這使其成為開發和評估城市規模監控應用中多目標跟蹤器的更現實和實用的資源。

三、方法

為了改進多目標跟蹤中的數據關聯，我們采用了一種簡單而強大的策略，避免直接丟棄低置信度檢測。與許多早期方法僅基于置信度閾值過濾檢測不同，我們將檢測分為高置信度和低置信度兩組，類似于Byte tracker。這種分離實現了更靈活和穩健的跟蹤：高置信度檢測提供強有力的初始關聯，而有選擇地使用低置信度檢測有助于恢復錯過的目標并減少身份切換。這種兩階段設計提高了整體召回率而不增加假陽性，尤其是在擁擠或模糊的場景中。

然而，在實踐中，嚴重的遮擋和密集交通仍然會導致關聯失敗。為了緩解這一點，我們引入了基于空間重疊的顯式遮擋檢測度量，允許即使沒有檢測也將遮擋目標標記和處理。我們還整合了環境感知線索——如道路方向性、街道布局和行人區域——來約束和優化運動軌跡，防止在遮擋期間發生不切實際的運動。此外，我們通過應用更具選擇性的確認和刪除策略修訂了軌跡段初始化和刪除邏輯。這些變化減少了虛假身份，提高了真實目標的恢復，并確保遮擋物體被單獨處理。這些增強一起顯著提高了復雜多類別城市場景中的跟蹤穩健性。完整的FastTrack算法總結如下。

運動預測。對于每個軌跡段 $t∈Tt\in\mathcal{T}$ ，我們使用類感知卡爾曼濾波器估計其未來狀態xt。運動模型參數基于物體類別選擇：汽車或摩托車等車輛允許更高的速度和加速度界限，而行人則用更平滑和更慢的動態建模。這使得軌跡預測更加現實，特別是在臨時遮擋或檢測丟失的情況下。

方向和ROI約束。為了防止軌跡段漂移到不合理的方向，我們使用環境地圖M上的區域查找檢索圍繞預測狀態 $x^τ\hat{x}_{\tau}$ 的區域R。每個區域編碼語義布局信息——如可駕駛道路或行人路徑——并與反映允許方向性的運動圓錐相關聯。圓錐角度0基于區域的多邊形結構幾何計算：我們識別入口和出口邊緣（由場景流的先驗知識定義），然后構建連接入口邊緣的每個角點到出口邊緣上對角點的兩條對角線。角度θ定義為這兩條交叉對角線之間的角度，表示允許的運動范圍。函數ProjectToCone $(x^t(\hat{x}_{t}$ ,cone?）將預測位置投影到此方向約束圓錐內。我們在附圖3中使用單向道路說明這些概念，盡管相同的邏輯擴展到其他區域類型，如雙向道路或人行橫道。
在這里插入圖片描述

關聯。我們采用類似于Byte Tracker的兩階段關聯策略。在第一階段，高置信度檢測 $Dhigh\mathcal{D}_{\mathrm{high}}$ 使用IoU-based關聯與活動軌跡段T匹配，產生匹配 $(T1,D1)(\mathcal{T}_{1},\mathcal{D}_{1})$ 。未匹配的軌跡段和低分檢測 $Tremain\mathcal{T}_{\mathrm{remain}}$ 和 $Dlow\mathcal{D}_{\mathrm{low}}$ ，然后傳遞到第二階段，其中 $Tremain\mathcal{T}_{\mathrm{remain}}$ 與低置信度檢測 $Dlow\mathcal{D}_{\mathrm{low}}$ 匹配以恢復困難情況 $T2\mathcal{T}_{2}$ ，并將它們從 $Tremain\mathcal{T}_{\mathrm{remain}}$ 中排除。最后，更新的活動集變為 $T=T1∪T2\mathcal{T}=\mathcal{T}_{1}\cup\mathcal{T}_{2}$ 。

遮擋處理。未匹配的軌跡段 $Tremain\mathcal{T}_{\mathrm{remain}}$ 通過測量與活動軌跡段T的空間重疊來檢查遮擋。如果中心接近度分數 $CP(t,t′)\mathrm{CP}(t,t^{\prime})$ （通過IoU計算）超過閾值 $CPmin\mathrm{CP}_{\mathrm{min}}$ ，則軌跡段t被視為遮擋并添加到 $Tocc\mathcal{T}_{\mathrm{occ}}$ 。對于每個遮擋軌跡段，我們將其標記為遮擋，抑制其速度以避免向遮擋物體方向傳播（這通常會導致漂移），并將邊界框放大10-20%（取決于物體類別）以改善未來的重新識別，如圖4所示。遮擋軌跡段暫時從進一步的關聯步驟中移除，直到它們重新出現。邊界框放大和速度抑制的有效性在圖5中展示。
在這里插入圖片描述

軌跡段初始化和刪除。為了維護干凈可靠的軌跡段集，我們應用明確的初始化和刪除策略。剩余的高置信度檢測僅在與現有軌跡段重疊較低時才考慮初始化，即，maxt $KaTeX parse error: Undefined control sequence: \d at position 18: …egin{array}{r}{\?d?_{\in\mathcal{T…$ ，確保避免冗余或重復軌跡。另一方面， $Tremain\mathcal{T}_{\mathrm{remain}}$ 中的未匹配軌跡段被刪除，除非它們被標記為遮擋。對于遮擋軌跡段，我們允許臨時持久性，但如果其遮擋年齡超過閾值 $ToccT_{\mathrm{occ}}$ 則將其刪除。此策略確保長期穩健性，同時避免陳舊或虛假軌跡。

后處理。雖然我們的方法設計用于完全在線推理，對后處理的依賴最小，但我們還整合了兩種互補的后處理技術以展示其潛在益處。首先，全局鏈接用于通過利用時空一致性和通過GIAOTracker的[30] IResNet50-TP編碼器提取的外觀特征來關聯碎片化軌跡段，基于余弦相似度進行軌跡段級匹配。其次，應用高斯平滑過程（GSP）[31]通過/對時間上的非線性運動建模來優化軌跡段軌跡。與線性插值不同，GSP結合了過去和未來的觀測，提供了對缺失檢測的更穩健處理和平滑的軌跡校正。

在這里插入圖片描述

四、基準測試

為了全面評估復雜交通場景中的多目標跟蹤，我們引入了FastTrack基準測試——一個多樣化且具有挑戰性的數據集，在幾個關鍵維度上超越了UrbanTracker和CityFlow等現有基準測試。FastTrack包含12個視頻中的80萬個標注檢測，每個視頻平均每幀有43.5個物體——比UrbanTracker多5倍以上，比CityFlow多5倍以上——使其特別適合在極端擁擠和交互下評估跟蹤器。該數據集涵蓋9個交通相關類別，擴展了標簽多樣性，超越了先前數據集。此外，FastTrack包含12種不同的交通場景，包括多車道交叉口、人行橫道、隧道和合并道路，在各種光照條件下，如日光、夜景和強陰影過渡。這些因素引入了頻繁且嚴重的遮擋，挑戰跟蹤器即使在長期消失期間也能保持身份連續性。與通常具有有限場景類型和低物體密度的現有數據集相比，FastTrack為現代跟蹤算法提供了更加現實和詳盡的基準測試，特別是那些設計用于城市交通環境部署的算法。基準統計數據和可視化分別在表I和圖6中提供。
在這里插入圖片描述

五、實驗設置

數據集。在我們的實驗中，我們使用了四個數據集：MOT16、MOT17、MOT20[1]，[9]和我們引入的基準數據集。MOT16和MOT17包括各種行人跟蹤場景，具有靜態和移動攝像機，其中MOT17進一步整合了多個檢測器輸出以進行穩健評估。MOT20呈現更具挑戰性的場景，具有極其擁擠的環境和嚴重的遮擋，測試檢測和跟蹤性能的極限。除了這些，我們的自定義基準引入了更極端的條件，具有大規模行人-汽車人群、頻繁且長時間的遮擋以及視覺雜亂的場景。這些特性導致個體之間顯著重疊，超越了現有MOT數據集的視覺復雜性，為評估跟蹤算法的現實世界穩健性提供了寶貴的測試平臺。

指標。我們使用一系列已建立的指標來評估跟蹤性能。這些包括CLEAR指標[32]——如MOTA、假陽性（FP）、假陰性（FN）和身份切換（IDs）——以及IDF1[33]和最近的HOTA指標[34]。雖然MOTA提供了跟蹤準確性的總體度量，但IDF1專注于身份關聯的質量，HOTA通過聯合考慮檢測準確性、關聯一致性和定位精度提供平衡評估。

實現細節。對于檢測，我們采用YOLOX，因為它在速度和準確性之間取得了有效平衡。檢測器的分類和定位頭按照先前工作[5]，[35]中建立的最佳實踐進行訓練。在推理時，我們應用0.75的非最大抑制（NMS）閾值。軌跡段關聯使用0.5的IoU閾值，并應用指數移動平均（EMA）平滑，動量系數Q為0.8。我們設置 $CPmin\mathrm{CP}_{\mathrm{min}}$ 為0.7，初始化重疊閾值 $K_{i n i t}$ 為0.8，遮擋容忍窗口 $T_{o c c}$ 為30幀。檢測置信度分類閾值為 $τlow=0.2\tau_{l o w}=0.2$ 和 $τhigh=0.65\tau_{h i g h}=0.65$ 。興趣區域M是用戶可配置的，如果提供了方向信息，跟蹤器會相應調整。

在后處理中，我們將高斯平滑插值（GSP）的最大間隙限制為20幀。對于全局鏈接，我們使用MARS ReID數據集[36]進行行人訓練，使用來自GIAOTracker的車輛ReID數據集進行車輛訓練。它使用Adam優化器訓練60個周期，使用交叉熵損失函數和余弦退火學習率計劃。在推理時，使用15幀的時間閾值和70像素的空間距離上限過濾候選關聯。僅接受超過0.9的鏈接分數。所有實驗均在配備NVIDIA RTX 4060 GPU（8GB VRAM）的系統上進行。我們在公共存儲庫中發布了我們的代碼和基準測試。

六、實驗

為了評估我們提出的跟蹤框架的有效性和穩健性，我們在標準基準測試和內部研究上進行了廣泛的實驗。首先，我們進行了全面的消融研究，以調查我們管道中每個單獨組件的貢獻。然后，我們在包括MOT16、MOT17、MOT20和我們新引入的FastTrack基準測試在內的公共多目標跟蹤基準測試上展示定量結果。

A. 消融研究

為了更好地理解我們框架中每個核心組件的影響，我們進行了一系列消融研究。具體來說，我們檢查了四個方面：（1）刪除和初始化策略對維持軌跡一致性的影響，（2）我們的遮擋感知機制在通過臨時視覺損失保持身份方面的貢獻，（3）整合用戶定義的ROI和方向約束（基于圓錐的過濾）的影響，（4）后處理技術（如全局鏈接和軌跡平滑）的作用，以及（5）檢查FastTracker在較輕檢測器上的性能。
在這里插入圖片描述

刪除和初始化策略：如表II所示，單獨啟用刪除或初始化會帶來適度的收益，而它們的組合始終產生最佳性能。具體來說，在MOT17上，聯合應用這兩種策略將MOTA從79.4提高到79.9，HOTA從63.5提高到64.0，絕對增益為+0.5 MOTA和+0.5 HOTA。同樣，在MOT20上，我們觀察到+0.7 MOTA和+0.5 HOTA的改進。對于更具挑戰性的FastTrack數據集，聯合配置將MOTA從60.1提高到60.9，HOTA從57.2提高到58.0。這些結果證實了我們提出的刪除和初始化策略在增強檢測可靠性和身份保持方面的有效性。
在這里插入圖片描述

遮擋處理：為了隔離遮擋處理的效果，我們禁用了我們的遮擋感知機制，并恢復到傳統策略——在不可見時立即移除軌跡段，并從所有高置信度檢測初始化新的軌跡段。如表III所示，整合我們的遮擋感知機制在所有數據集上都帶來了顯著的性能提升。具體來說，在MOT17上，HOTA提高了2.1分（從63.1到65.2），MOTA提高了1.4分（從79.0到80.4）。在更擁擠的MOT20數據集上，我們的方法將HOTA提高了2.3分，MOTA提高了2.6分。在FastTrack上觀察到最大的收益，HOTA提高了3.9分，MOTA提高了4.2分。這些結果突顯了在挑戰性場景下顯式遮擋建模在維持準確身份關聯中的關鍵作用。
在這里插入圖片描述

ROI和方向。為了進一步完善結構化場景中的關聯過程，我們研究了在FastTrack數據集上整合興趣區域（ROI）過濾和方向（Dir）約束的影響，如表IV所示。這些評估是在其他模塊（包括提出的遮擋處理和刪除/初始化策略）的基礎上進行的。僅應用ROI約束達到63.5 MOTA / 60.8 HOTA的性能，而僅使用方向約束略微提高分數至63.6 MOTA / 61.0 HOTA。當結合兩種約束時，該方法達到最佳結果63.8 MOTA / 61.0 HOTA，展示了適度但一致的收益。

后處理：為了評估后處理階段的貢獻，我們分析了在三個數據集上整合GSP（優于傳統插值技術[37]）和全局鏈接（G-Link）對最終跟蹤性能的影響。重要的是，這里報告的所有結果都基于完整的在線系統，包括我們提出的刪除/初始化策略和遮擋處理機制。后處理模塊在生成初始軌跡后離線應用。如表V所示，單獨啟用GSP或G-Link都會在基礎輸出上帶來一致的改進，G-Link在HOTA方面略微優于GSP。
在這里插入圖片描述

輕量修改版YOLOX的跟蹤性能。FastTracker即使與輕量級YOLOX檢測器配對也表現出穩健的性能，如表VI所示。隨著模型大小從YOLOX-L（61M）減小到YOLOX-Nano（1M），跟蹤準確性逐漸下降，但整體保持強勁指標。值得注意的是，YOLOX.M和YOLOX-S分別實現了78.1和74.6的MOTA分數，優于依賴更大檢測器和更重重識別模塊的幾個基線。即使使用YOLOX-Nano，FastTracker也實現了令人信服的68.3 MOTA和71.2 IDF1，使在資源有限的邊緣設備上實現實時部署成為可能。這些結果突顯了FastTracker在各種檢測器容量下的效率和可擴展性。
在這里插入圖片描述

B. 基準測試評估

在實驗的最后部分，我們在MOT16、MOT17、MOT20和FastTrack上評估了我們提出的跟蹤器相對于最先進方法的有效性。為了展示我們的在線跟蹤性能，我們將跟蹤輸出（沒有任何后處理，如GSP或G-Link）提交到相應的評估服務器。此設置確保所有報告的結果僅反映我們在線系統的性能，突顯了我們的跟蹤框架在標準基準測試協議和約束下的優勢。
在這里插入圖片描述

MOT16和MOT17：表VII展示了官方MOT16基準測試結果。我們的方法FastTracker在所有比較方法中取得了最高分數，MOTA為79.1，HOTA為66.0，超過了最近的最先進方法。與FeatureSORT（MOTA 77.9，HOTA 62.8）相比，我們提高了+1.2 MOTA和+3.2 HOTA。同樣，與StrongSORT（MOTA 77.8，HOTA 63.8）相比，我們看到+1.3 MOTA和+2.2 HOTA的增益。值得注意的是，我們還實現了最低數量的身份切換（290），展示了在整個序列中卓越的身份保持。
在這里插入圖片描述

表VIII展示了FastTracker在MOT17基準測試上的性能。我們的方法以81.8的MOTA和66.4的HOTA實現了新的最先進水平，明顯優于所有先前的跟蹤器。與FeatureSORT（MOTA 79.6，HOTA 63.0）相比，我們實現了+2.2 MOTA和+3.4 HOTA的改進。與StrongSORT（MOTA 78.3，HOTA 63.5）相比，增益為+3.5 MOTA和+2.9 HOTA。即使是廣泛采用的ByteTrack也表現出較低的性能（MOTA 78.9，HOTA 62.8），差距為+2.9 MOTA和+3.6 HOTA。此外，FastTracker實現了最低數量的身份切換（885）和最低的FN（75162），確認了強大的身份保持和檢測質量。
在這里插入圖片描述

MOT20：表IX展示了在具有挑戰性的MOT20基準測試上的結果。FastTracker在大多數關鍵指標上取得了最高性能，以MOTA 77.9、HOTA 65.7和IDF1 81.0樹立了新的最先進水平。與FeatureSORT（MOTA 76.6，HOTA 61.3，IDF1 75.1）相比，我們看到+1.3 MOTA、+4.4 HOTA和+5.9 IDF1的增益。與ByteTrack（MOTA 75.7，HOTA 60.9，IDF1 74.9）相比，我們的方法提高了+2.2 MOTA、+4.8 HOTA和+6.1 IDF1。值得注意的是，FastTracker還實現了所有跟蹤器中最低的身份切換（684），表明即使在極其擁擠的場景中也能穩健地保持身份。這些結果證實，FastTracker通過其遮擋處理能力，在高密度環境中提供了最先進的跟蹤性能。
在這里插入圖片描述

FastTracker基準測試：表X展示了在FastTracker Benchmark上的結果，這是一個設計用于評估密集跟蹤場景中穩健性的挑戰性內部基準測試。FastTracker實現了最佳MOTA（63.8）、IDF1（79.2）和HOTA（61.0），在關聯準確性方面超過了FeatureSORT和ByteTrack。它還實現了最低數量的身份切換（251），展示了跨幀的強一致性。雖然FastTracker在MOTA（63.8）方面領先，但它還展示了檢測和身份保持之間更好的平衡，分別比StrongSORT和FeatureSORT提高+1.3和+3 HOTA，并將IDF1顯著提高多達+1.8。這些結果突顯了FastTracker在擁擠條件下保持準確身份跟蹤的優勢。

七、討論

雖然FastTracker在公共和內部基準測試上表現出強勁性能，但仍然存在一些局限性。目前，該系統依賴于手動定義的ROI區域和圓錐方向約束，必須使用恰好四個邊緣指定。這種嚴格的配置可能會限制在復雜或動態場景中的部署，其中此類注釋不切實際或不足。作為未來工作的一個有希望的方向，最近在語義分割和場景理解方面的進展可以被利用來實現道路邊界、人行橫道和其他上下文線索的自動檢測，消除手動設置的需要。此外，將系統擴展到支持任意多邊形ROI或更靈活的方向約束將允許在真實世界環境中更廣泛的應用，如交叉口、環形交叉口和多車道道路。

八、結論

我們介紹了FastTracker，一種非常快速和輕量級的多目標跟蹤器，無需任何基于CNN的重識別網絡即可運行。它有效處理遮擋并利用環境感知線索（如空間約束）來提高跟蹤準確性。雖然設計用于在線部署，但它也支持可選的后處理以進一步優化。盡管其簡單性，FastTracker優于大多數最先進的方法，并適合在資源受限的設備上部署。