Deeper and Wider Siamese Networks for Real-Time Visual Tracking

現象

the backbone networks used in Siamese trackers are relatively shallow, such as AlexNet , which does not fully take advantage of the capability of modern deep neural networks.

direct replacement of backbones with existing powerful architectures, such as ResNet and Inception, does not bring improvements.

如果要處理一些比較復雜的視覺問題時,使用孿生網絡之前的backbone效果就不太好了(因為網絡比較淺,不能充分提取圖像的特征。)但是使用一些比較深/寬的網絡替換掉之前的backbone后發現其效果反而更差了,所以本文就探索了是什么原因導致的這個現象,并提出了幾種不同的backbone

原因/問題:

  • receptive field size
    large increases in the receptive field of neurons lead to reduced feature discriminability and localization precision;
    感受野的增大導致特征差異以及局部精細度感知的降低。

  • feature padding
    the network padding for convolutions induces a positional bias in learning.

    when an object moves near the search range boundary, it is difficult to make an accurate prediction.
    卷積過程中使用的填充會導致位置的偏移,從而導致位于search range邊緣的物體檢測不準確

  • network stride
    The network stride affects the degree of localization precision, especially for small-sized objects.
    步長會影響局部精度,特別是對于小的物體

本文的創新點/解決

  • 設計了CIR來減少padding的不利影響
  • 控制了步長和感受野大小,并且把CIR加了進來,在孿生網絡的基礎上設計了兩種網絡架構。

CIR單元
在這里插入圖片描述

  • (a')CIR:The cropping operation removes features whose calculation is affected by the zero-padding signals. Since the padding size is one in the bottleneck layer, only the outermost features on the border of the feature maps are cropped out. This simple operation neatly removes padding-affected features in residual unit.
    相加后得到的特征圖的最外面一圈才會受到填充的影響,那就把最后一圈去掉
  • (b')CIR-D:If we were only to insert cropping after the addition operation, as done in the proposed CIR unit, without changing the position of downsampling, the features after cropping would not receive any signal from the outermost pixels in the input image.
    對于像(b)有下采樣的卷積,就拿b舉例,因為步長是2填充是1,原始圖最外面那一圈的信息只包含在特征圖最外面一圈中,如果直接像(a')一樣把特征圖最后一圈裁掉,那么原圖最后一圈的信息將會永遠丟失。所以作者改變了下采樣的順序(妙啊)

補充

  • 視覺跟蹤任務的定義:Visual tracking is one of the fundamental problems in computer vision. It aims to estimate the position of an arbitrary target in a video sequence, given only its location in the initial frame.
  • 孿生網絡:
    • 定義:Siamese architecture takes an image pair as input, comprising an exemplar image z and a candidate search image x. The image z represents the object of interest (e.g., an image patch centered on the target object in the first video frame)
      兩個input,兩個網絡,同一類的距離近些,不同類的距離遠些。
    • siamese networkVSpseudo-siamese network
      • 左右兩邊共享權值,是相同的網絡:siamese network
      • 如果左右兩邊不共享權值,時不相同的網絡:pseudo-siamese network
  • CNN VS FCN
    • CNN: 在傳統的CNN網絡中,在最后的卷積層之后會連接上若干個全連接層,將卷積層產生的特征圖feature map映射成為一個固定長度的特征向量。一般的CNN結構適用于圖像級別的分類和回歸任務,因為它們最后都期望得到輸入圖像的分類的概率。(例如:手寫字識別)
    • FCN: FCN是對圖像進行像素級的分類(也就是每個像素點都進行分類),從而解決了語義級別的圖像分割問題。(例如:確定一張圖片上貓的位置)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80118.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80118.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80118.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ubuntu22.04卸載vscode

方法 1:通過 Snap 卸載 VSCode 如果你是通過 Snap 安裝的 VSCode(Ubuntu 22.04 默認推薦方式),按照以下步驟卸載: 檢查是否通過 Snap 安裝: bash snap list | grep code如果輸出顯示 code,說明…

OpenCV 背景建模詳解:從原理到實戰

在計算機視覺領域,背景建模是一項基礎且重要的技術,它能夠從視頻流中分離出前景目標,廣泛應用于運動目標檢測、視頻監控、人機交互等場景。OpenCV 作為計算機視覺領域最受歡迎的開源庫之一,提供了多種高效的背景建模算法。本文將深…

Android native崩潰問題分析

最近在做NDK項目的時候,出現了啟動應用就崩潰了,崩潰日志如下: 10:41:04.743 A Build fingerprint: samsung/g0qzcx/g0q:13/TP1A.220624.014/S9060ZCU4CWH1:user/release-keys 10:41:04.743 A Revision: 12 10:41:04.743 A ABI: arm64…

【Shell的基本操作】

文章目錄 一、實驗目的二、實驗環境三、實驗內容3.1 Shell變量與腳本基礎3.2 定制終端提示符(PS1變量)3.3 文件查找與類型確認(find命令)3.4 管道命令實戰(用戶登錄統計)3.5 交互式備份壓縮腳本 四、總結4.…

快速選擇算法:優化大數據中的 Top-K 問題

在處理海量數據時,經常會遇到這樣的需求:找出數據中最大的前 K 個數,而不必對整個數據集進行排序。這種場景下,快速選擇算法(Quickselect)就成了一個非常高效的解決方案。本文將通過一個 C 實現的快速選擇算…

AQS 基本思想與源碼分析

充分了解 AbstractQueuedSynchronizer 對于深入理解并發編程是有益處的,它是用來構建鎖或者其他同步組件的基礎框架,我們常用的同步工具類如 CountDownLatch、Semaphore、ThreadPoolExecutor、ReentrantLock 和 ReentrantReadWriteLock 內部都用到了它。…

理解位圖算法:使用 C++ 實現高效數據查重

在處理海量數據時,我們常常需要檢查某個元素是否已經存在于集合中。傳統的方法如哈希表或集合容器雖然有效,但在數據量極大的情況下會占用大量內存。這時,位圖算法 (Bitmap) 就成為了一種非常高效的解決方案。本文將通過分析一段使用位圖算法…

數學復習筆記 12

前言 現在做一下例題和練習題。矩陣的秩和線性相關。另外還要復盤前面高數的部分的內容。奧,之前矩陣的例題和練習題,也沒有做完,行列式的例題和練習題也沒有做完。累加起來了。以后還是得學一個知識點就做一個部分的內容,日拱一…

1-10 目錄樹

在ZIP歸檔文件中,保留著所有壓縮文件和目錄的相對路徑和名稱。當使用WinZIP等GUI軟件打開ZIP歸檔文件時,可以從這些信息中重建目錄的樹狀結構。請編寫程序實現目錄的樹狀結構的重建工作。 輸入格式: 輸入首先給出正整數N(≤104)…

Python爬蟲實戰:研究 RPC 遠程調用機制,實現逆向解密

1. 引言 在網絡爬蟲技術的實際應用中,目標網站通常采用各種加密手段保護其數據傳輸和業務邏輯。這些加密機制給爬蟲開發帶來了巨大挑戰,傳統的爬蟲技術往往難以應對復雜的加密算法。逆向解密作為一種應對策略,旨在通過分析和破解目標網站的加密機制,獲取原始數據。 然而,…

debugfs:Linux 內核調試的利器

目錄 一、什么是 debugfs?二、debugfs 的配置和啟用方式2.1 內核配置選項2.2 掛載 debugfs2.3 Android 系統中的 debugfs 三、debugfs 的典型應用場景3.1 調試驅動開發3.2 內核子系統調試3.3 性能分析 四、常見 debugfs 子目錄與功能示例4.1 /sys/kernel/debug/trac…

lua 作為嵌入式設備的配置語言

從lua的腳本中獲取數據 lua中棧的索引 3 | -1 2 | -2 1 | -3 可以在lua的解釋器中加入自己自定的一些功能,其實沒啥必要,就是為了可以練習下lua

棋牌室臺球室快速接入美團團購接口

北極星平臺從2024年12月份開始慢慢關閉,現在很多開發者反饋北極星token已經不能刷新了,全部遷移到美團團購綜合平臺。 申請這個平臺要求很高 1、保證金費用要15萬起步 2、平臺必須是二級等保和安全產品 ,一個二級等保費用10萬起步 所以很多…

開源輕量級地圖解決方案leaflet

Leaflet 地圖:開源輕量級地圖解決方案 Leaflet 是一個開源的 JavaScript 庫,用于在網頁中嵌入交互式地圖。它以輕量級、靈活性和易用性著稱,適用于需要快速集成地圖功能的項目。以下是關于 Leaflet 的詳細介紹和使用指南。 1. Leaflet 的核心…

一個批量文件Dos2Unix程序(Microsoft Store,開源)1.1.0 編碼檢測和預覽

之前的版本是個意思意思,驗證商店發布的(其實是我以前自己用的工具),這次把格式檢查和轉換都做上了,功能應該差不多了,還有一些需要小改進的地方。 因為還沒什么用戶嘛,還是保持全功能免費試用。…

特征提取:如何從不同模態中獲取有效信息?

在多模態學習中,不同模態(文本、圖像、語音、視頻、傳感器數據等)所攜帶的信息豐富且互補。但不同模態的數據結構、表示空間、時空分布截然不同,因此,如何對各模態進行高效、有效的特征提取,是整個多模態學…

Go語言爬蟲系列教程 實戰項目JS逆向實現CSDN文章導出教程

爬蟲實戰:JS逆向實現CSDN文章導出教程 在這篇教程中,我將帶領大家實現一個實用的爬蟲項目:導出你在CSDN上發布的所有文章。通過分析CSDN的API請求簽名機制,我們將繞過平臺限制,獲取自己的所有文章內容,并以…

交叉熵損失函數,KL散度, Focal loss

交叉熵損失函數(Cross-Entropy Loss) 交叉熵損失函數,涉及兩個概念,一個是損失函數,一個是交叉熵。 首先,對于損失函數。在機器學習中,損失函數就是用來衡量我們模型的預測結果與真實結果之間…

149.WEB滲透測試-MySQL基礎(四)

免責聲明:內容僅供學習參考,請合法利用知識,禁止進行違法犯罪活動! 內容參考于: 易錦網校會員專享課 上一個內容:148.WEB滲透測試-MySQL基礎(三) 非關系型數據庫: &a…

c/c++中程序內存區域的劃分

c/c程序內存分配的幾個區域: 1.棧區:在執行函數時,函數內局部變量的存儲單元都可以在棧上創建,函數執行結束時這些存儲單元自動被釋放,棧內存分配運算內置于處理器的指令集中,效率很高但是分配的內存容量有…