【SiamFC】《Fully-Convolutional Siamese Networks for Object Tracking》

在這里插入圖片描述

ECCV 2016 Workshops


文章目錄

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 The OTB-13 benchmark
    • 5.3 The VOT benchmarks
    • 5.4 Dataset size
  • 6 Conclusion(own)/ Future work


1 Background and Motivation

在這里插入圖片描述

單目標跟蹤

track any arbitrary object, it is impossible to have already gathered data and trained a specific detector

在線學習方法的缺點(either apply “shallow” methods (e.g. correlation filters) using the network’s internal representation as features or perform SGD (stochastic gradient descent) to fine-tune multiple layers of the network)

a clear deficiency of using data derived exclusively from the current video is that only comparatively simple models can be learnt.

實時性可能也是個問題

作者基于全卷積孿生網絡,來實現單目標跟蹤,且只要是目標檢測的數據集,都可以拿來訓練(the fairness of training and testing deep models for tracking using videos from the same domain is a point of controversy)

在這里插入圖片描述

2 Related Work

  • train Recurrent Neural Networks (RNNs) for the problem of object tracking
  • track objects with a particle filter that uses a learnt distance metric to compare the current appearance to that of the first frame.
  • feasibility of fine-tuning from pre-trained parameters at test time

3 Advantages / Contributions

  • we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video

  • frame-rates beyond real-time

  • achieves state-of-the-art performance in multiple benchmarks

4 Method

在這里插入圖片描述

f ( z , x ) = g ( φ ( z ) , φ ( x ) ) f(z, x) = g(\varphi(z), \varphi(x)) f(z,x)=g(φ(z),φ(x))

exemplar image z z z

candidate image x x x

在這里插入圖片描述

g g g is a simple distance or similarity metric

φ \varphi φ 是孿生網絡,結構如下

在這里插入圖片描述
x 和 z 獲取的細節(來自 pysot 代碼)

在這里插入圖片描述

更具體的公式如下

在這里插入圖片描述

b L b \mathbb{L} bL denotes a signal which takes value b ∈ R b ∈ \mathbb{R} bR in every location

每個空間位置的 b 應該是相等的吧

損失函數

在這里插入圖片描述
y 是標簽,1 或者 -1

v 是 score map 上的得分(0-1)之間

在這里插入圖片描述
u 是空間位置,D 是 score map
在這里插入圖片描述
預測的bounding box 中心點位于 ground true bounding box 中心半徑小于 R 區域的都屬于正樣本

c 是 GT bbox 的中心點

stride k of the network

訓練的時候用的 SGD 優化

在這里插入圖片描述

5 Experiments

50 epochs 50,000 sampled pairs

SiamFC (Siamese Fully Convolutional) and SiamFC-3s, which searches over 3 scales instead of 5.

scale 的細節不太清楚

5.1 Datasets and Metrics

訓練集
ImageNet Video for tracking,4500 videos

測試集

  • ALOV
  • OTB-13
  • VOT-14 / VOT-15 / VOT-16

a tracker is successful in a given frame if the intersection over-union (IoU) between its estimate and the ground-truth is above a certain threshold

OTB上常用的3個:TRE、SRE、OPE

  • OPE:單次評估精度,TRE運行一次的結果。
  • TRE: 將序列劃分為20個片段,每次是從不同的時間初始化,然后去跟蹤目標。
  • SRE: 從12個方向對第一幀的目標位置設置10%的偏移量,然后跟蹤目標,判斷目標跟蹤精度。

通用指標

  • OP(%): overlap precision 重疊率
    重疊率 = 重疊區域面積/(預測矩形的面積+真實矩形的面積-重疊區域的面積)
  • CLE(pixels): center location error 中心位置誤差
    中心位置誤差 = 真實中心和預測中心的歐式距離
  • DP:distance precision 精確度
  • AUC: area under curve 成功率z圖的曲線下面積

VOT當中一些指標

  • Robustness:數值越大,穩定性越差。

5.2 The OTB-13 benchmark

在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

5.3 The VOT benchmarks

VOT-14
在這里插入圖片描述
VOT-15
在這里插入圖片描述
在這里插入圖片描述

5.4 Dataset size

在這里插入圖片描述

看看實際的效果
在這里插入圖片描述
缺點:框的 spatial ratio 是固定的

6 Conclusion(own)/ Future work

參考文章:

  • 視覺目標跟蹤SiamFC
  • 單目標跟蹤論文綜述:SiamFC、Siam系列、GradNet等一覽
  • 【目標跟蹤線上交流會】第十五期 Pysot實驗總結
  • SiamRPN代碼解讀–proposal selection部分
  • 單目標追蹤-SiamFC

僅看文章,許多實現細節我都不夠清晰,還是得擼擼代碼

Deep Siamese conv-nets have previously been applied to tasks such as face verification, keypoint descriptor learning and one-shot character recognition

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/696094.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/696094.shtml
英文地址,請注明出處:http://en.pswp.cn/news/696094.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android系統啟動流程

android的啟動流程是從底層開始進行的,具體如下所示: Android是基于Linux內核的系統,Android的啟動過程主要分為兩個階段,首先是Linux內核的啟動,然后是Android框架的啟動。 可以將Andorid系統的啟動流程分為以下五個…

【QT 5 +Linux下軟件桌面快捷方式+qt生成軟件創建桌面圖標+學習他人文章+第二篇:編寫桌面文件.desktop】

【QT 5 Linux下軟件桌面快捷方式qt生成軟件創建桌面圖標學習他人文章第二篇:編寫桌面文件.desktop】 1、前言2、實驗環境3、自我學習總結-本篇總結1、新手的疑問,做這件事目的2、了解.desktop3、三個關鍵目錄以及文件編寫1、目錄:/opt/2、目錄…

【鴻蒙 HarmonyOS 4.0】開發工具安裝

一、準備開發環境 1.1、安裝IDE 鴻蒙應用開發需要使用配套的IDE——HUAWEI DevEco Studio。 DevEco Studio基于IntelliJ IDEA Community(IDEA社區版)構建,為鴻蒙應用提供了一站式開發環境,集成了開發、運行、調試以及發布應用的…

【leetcode刷題之路】面試經典150題(3)——哈希表+區間

文章目錄 5 哈希表5.1 【哈希表】贖金信5.2 【數學】同構字符串5.3 【數學】單詞規律5.4 【哈希表】有效的字母異位詞5.5 【哈希表】字母異位詞分組5.6 【雙指針】兩數之和5.7 【數學】快樂數5.8 【哈希表】219. 存在重復元素 II5.9 【數學】最長連續序列 6 區間6.1 【數學】匯…

Stable Diffusion 模型分享:AstrAnime(Astr動畫)

本文收錄于《AI繪畫從入門到精通》專欄,專欄總目錄:點這里。 文章目錄 模型介紹生成案例案例一案例二案例三案例四案例五 下載地址 模型介紹 AstrAnime 是一個動漫模型,畫風色彩鮮明,擅長繪制漂亮的小姐姐。 條目內容類型大模型…

fastjson解析自定義get方法導致空指針問題

背景 為了在日志中把出入參打印出來,以便驗證鏈路和排查問題,在日志中將入參用fastjson格式化成字符串輸出,結果遇到了NPE。 問題復現 示例代碼 public static void main(String[] args) {OrganizationId orgId new OrganizationId();N…

規模化強化學習 — 多任務強化學習

1 簡述 1.1 單任務強化學習(STRL) 在單任務強化學習中,一個無人機的AI系統可能被訓練來執行特定的任務,比如自主導航。在這個任務中,無人機需要學習如何有效地從起點飛行到終點,并避開障礙物。 舉例&#…

【Java多線程】分析線程加鎖導致的死鎖問題以及解決方案

目錄 1、線程加鎖 2、死鎖問題的三種經典場景 2.1、一個線程一把鎖 2.2、兩個線程兩把鎖 2.3、N個線程M把鎖(哲學家就餐問題) 3、解決死鎖問題 1、線程加鎖 其中 locker 可以是任意對象,進入 synchronized 修飾的代碼塊, 相當于加鎖&…

Java SourceDataLine 播放音頻

Java SourceDataLine 播放音頻 1 依賴2 接口3 實現4 測試 項目Value音頻格式 添加依賴*.wav(JDK 原生支持)*.pcm(JDK 原生支持)*.au(JDK 原生支持)*.aiff(JDK 原生支持)*.mp3mp3spi.jar*.flacjflac-codec.jar 1 依賴 <dependency><groupId>com.googlecode.soundl…

?北郵復試刷題LCR 052. 遞增順序搜索樹__DFS (力扣119經典題變種挑戰)

LCR 052. 遞增順序搜索樹 給你一棵二叉搜索樹&#xff0c;請 按中序遍歷 將其重新排列為一棵遞增順序搜索樹&#xff0c;使樹中最左邊的節點成為樹的根節點&#xff0c;并且每個節點沒有左子節點&#xff0c;只有一個右子節點。 示例 1&#xff1a; 輸入&#xff1a;root [5,…

DataX - 全量數據同步工具

前言 今天是2024-2-21&#xff0c;農歷正月十二&#xff0c;相信今天開始是新的階段&#xff0c;盡管它不是新的周一、某月一日、某年第一天&#xff0c;盡管我是一個很講究儀式感的人。新年剛過去 12 天&#xff0c;再過 3 天就開學咯&#xff0c;開學之后我的大學時光就進入了…

TypeScript01:安裝TypeScript

一、TypeScript 官方網站&#xff1a;https://www.tslang.cn/docs/index.html 練習場&#xff1a;https://www.typescriptlang.org/zh/play 好處&#xff1a; 強類型語言&#xff0c;對JS弱類型的一個良好補充&#xff1b;TS利于大型項目團隊合作&#xff0c;可以一定程度…

這五個軟件測試工具,測試工程師必備

在軟件開發過程中&#xff0c;軟件測試是確保軟件質量和穩定性的關鍵環節。為了幫助開發人員和測試團隊更好地完成這一任務&#xff0c;市面上涌現出眾多軟件測試工具。本文將盤點五個備受推崇的軟件測試工具&#xff0c;它們各具特色&#xff0c;適用于不同的測試場景。 Test…

ChatGPT實戰100例 - (17) 用ChatGPT實現音頻長度測量和音量調整

文章目錄 ChatGPT實戰100例 - (17) 用ChatGPT實現音頻長度測量和音量調整獲取音頻長度pydub獲取音頻長度獲取時長精確到秒格式設定 mutagen獲取音頻長度 調整音量視頻音量調整注意事項 ChatGPT實戰100例 - (17) 用ChatGPT實現音頻長度測量和音量調整 老王媳婦說上次那個pip挺好…

深度學習的學習筆記帖子2

人臉數據集的介紹&#xff1a; https://zhuanlan.zhihu.com/p/362356480 https://blog.csdn.net/bjbz_cxy/article/details/122210641 CASIAWebFace人臉數據集等的github&#xff1a; https://github.com/deepinsight/insightface/blob/master/recognition/datasets/README.md…

藍橋杯基礎知識點9 stack、queue、priority_queue

藍橋杯基礎知識點9 stack、queue、priority_queue 01 stack的定義和結構 stack是一種后進先出&#xff08;LIFO&#xff09;的數據結構&#xff0c;頭文件<stcak>。 template <class T, class Container deque<T>> class stack; T&#xff1a;存儲在stack…

《VitePress 簡易速速上手小冊》第7章 高級功能與動態內容(2024 最新版)

文章目錄 7.1 動態路由與 API 集成7.1.1 基礎知識點解析7.1.2 重點案例&#xff1a;技術博客7.1.3 拓展案例 1&#xff1a;電商網站7.1.4 拓展案例 2&#xff1a;事件管理網站 7.2 狀態管理與 Vuex 使用7.2.1 基礎知識點解析7.2.2 重點案例&#xff1a;用戶認證系統7.2.3 拓展案…

力扣精選算法100道——Z字形變換(模擬專題)

目錄 &#x1f388;了解題意 &#x1f388;算法原理 &#x1f6a9;先處理第一行和最后一行 &#x1f6a9;再處理中間行 &#x1f388;實現代碼 &#x1f388;了解題意 大家看到這個題目的時候肯定是很迷茫的&#xff0c;包括我自己也是搞不清楚題目什么意思&#xff0c;我…

memcpy和strcat的區別

memcpy 函數&#xff1a; memcpy 函數用于在內存之間復制一定數量的字節。memcpy 是按字節進行復制的&#xff0c;可以用于復制任意類型的數據&#xff0c;不僅限于字符串。memcpy 不會自動添加字符串結束符號 \0&#xff0c;因此在復制字符串時&#xff0c;需要確保復制的字節…

喝點小酒-胡謅“編程語言學習”

今天&#xff0c; 與一個小哥們兒&#xff08;學習計算機科學與技術專業的&#xff0c;我兒子&#xff0c;這是真的&#xff09;一塊兒吃飯&#xff08;這頓飯&#xff0c;在家里吃的&#xff0c;吹個牛哈&#xff0c;我做的&#xff0c;三個葷菜、一個素材、一個湯、主食米飯 …