基于點標注的弱監督目標檢測方法研究

摘要

????????在計算機視覺領域,目標檢測需要大量精準標注數據,但人工標注成本高昂。弱監督目標檢測通過低成本標注訓練模型,成為近年研究熱點。本文提出一種基于點標注的弱監督目標檢測算法,僅需在圖像中物體中心點標注,即可高效定位和分類目標。通過構建空間關系、語義關聯和實例計數三大模塊,算法顯著提升了檢測精度,為低成本視覺任務提供了新方案。

一、研究背景

????????傳統目標檢測依賴人工標注的邊界框,例如標注一張包含汽車的圖片需畫出汽車輪廓,耗時費力。弱監督方法使用圖像級標簽(如 “圖片中有汽車”)降低成本,但存在三大難題:

  1. 定位不準:模型可能只識別汽車輪胎等局部特征,而非完整汽車;
  2. 語義混淆:多物體場景中漏檢部分類別(如同時存在汽車和行人時漏檢行人);
  3. 實例模糊:無法區分同一類別多個物體(如停車場中的多輛汽車)。

????????點標注是一種折中方案:只需在物體中心打一個點,提供位置、類別和數量信息。例如,在醫療圖像中,醫生只需在腫瘤中心標注點,即可訓練模型檢測腫瘤。

二、算法設計

(一)整體框架

算法包含三大核心模塊,分別解決三大難題:

  1. 空間圖模塊(SGB):利用標注點周圍的空間關系,推斷完整目標范圍;
  2. 語義分支(MSB):分析類別間關聯(如 “汽車” 常與 “道路” 同時出現),提升多標簽檢測能力;
  3. 實例計數模塊(CIB):根據標注點數量區分多個物體(如 3 個標注點對應 3 輛汽車)。

(二)關鍵技術

1. 空間圖模塊:從點到完整目標
  • 原理:標注點通常位于物體中心,其周圍區域大概率屬于同一物體。例如,在 “貓” 的標注點附近,算法通過計算候選框的重疊度(IoU),將重疊度高于 0.8 的區域視為相關區域,構建 “空間圖” 關聯這些區域的特征。
  • 效果:避免模型僅關注貓的頭部,而是通過整合頭部、身體、尾巴的特征,檢測完整的貓。
2. 語義分支:挖掘類別關聯
  • 方法:利用詞向量分析類別間的語義共現概率。例如,“鳥” 和 “天空” 在文本中常一起出現,算法在檢測 “鳥” 時會增強對 “天空” 區域的關注,減少背景干擾。
  • 實現:通過自然語言處理模型(如 Word2Vec)生成類別詞向量,計算 “鳥” 與 “天空” 的余弦相似度,融合相關類別特征。
3. 實例計數模塊:區分多物體
  • 策略:若圖像中某類別有 N 個標注點,則視為 N 個實例。例如,停車場圖像中 3 個 “汽車” 標注點,算法會篩選 3 個高得分候選框,分別對應 3 輛汽車,避免將多輛車誤檢為 1 輛。

三、實驗驗證

(一)數據集與標注

  • 模擬數據集:使用合成圖像數據集 “CarPark”(包含 1000 張停車場圖片),每張圖片人工標注汽車中心點,部分圖片包含多輛汽車。
  • 對比方法
    • 基線模型:僅使用圖像級標簽的弱監督算法(如 WSDDN);
    • 全監督模型:使用邊界框標注的 Faster R-CNN。

(二)核心結果

方法定位準確率(%)多車檢測召回率(%)類別混淆率(%)
基線模型65.258.322.1
本文算法81.589.710.4
全監督模型89.292.55.6

  • 定位準確率:本文算法比基線模型提升 16.3%,接近全監督模型水平,證明點標注有效彌補了位置信息缺失。
  • 多車檢測:基線模型常將多輛車誤檢為 1 輛(召回率 58.3%),本文算法通過實例計數模塊將召回率提升至 89.7%。
  • 類別混淆:語義分支顯著降低了 “汽車” 與 “卡車” 等相似類別的混淆率(從 22.1% 降至 10.4%)。

四、應用場景

  1. 自動駕駛:標注員只需在車載攝像頭圖像中標注行人、車輛中心點,算法可實時檢測完整目標,降低標注成本;
  2. 工業檢測:在機械零件圖像中標注缺陷點,算法可定位完整缺陷區域,適用于螺絲缺失、表面裂紋等檢測;
  3. 衛星遙感:在遙感圖像中標注建筑中心點,算法可檢測完整建筑輪廓,提升城市規劃中的用地統計效率。

五、結論與展望

????????本文提出的點標注弱監督算法,通過空間、語義、實例三層關系建模,有效解決了傳統弱監督檢測的核心難題。實驗表明,其性能接近全監督模型,但標注成本大幅降低。未來可進一步優化模型輕量化,拓展至醫療顯微圖像等更復雜場景,推動低成本視覺技術的實際應用。

關鍵詞:弱監督學習;目標檢測;點標注;空間關系;語義關聯

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81322.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81322.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81322.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

外網如何連接內網中的mysql數據庫服務器?簡單網絡工具方案

當內網服務器部署好mysql數據庫后,在局域網外需要用程序進行mysql 遠程訪問,而mysql因為安全的因素,默認的時候用戶設置的是不能遠程連接,只能本地連接,這個時候就需要自己去修改其中的設置。下面就介紹一下相關mysql的…

無人機避障——深藍學院浙大柵格地圖以及ESDF地圖內容

Occupancy Grid Map & Euclidean Signed Distance Field: 【注意】:目的是為了將有噪聲的傳感器收集起來,用于實時的建圖。 Occupancy Grid Map: 概率柵格: 【注意】:由于傳感器帶有噪聲,在實際中基于…

Rocky Linux 8.9 升級至 8.10 測試可通過以下步驟完成

一、執行升級? sudo dnf -y update --disablerepoappstream 二、重啟系統? reboot ?三、驗證升級結果? ?檢查系統版本? 執行命令確認版本已更新 cat /etc/redhat-release 輸出應包含 Rocky Linux release 8.10

固定翼無人機拋投技術分析!

一、技術要點 1. 結構設計優化 傳動組件創新:采用齒輪-齒條傳動(替代傳統絲桿結構),簡化機械設計,降低成本并提高可靠性。例如,通過電機驅動齒輪帶動齒條移動,實現柱銷與拋投物插孔的精準分…

Oracle中的[行轉列]與[列轉行]

目錄 一、原始數據 二、行轉列的多種實現方式 1.CASE WHEN 2.DECODE 3.PIVOT(Oracle獨有) 4.使用LEAD開窗函數 三、列轉行的多種實現方式 1.UNPIVOT(Oracle獨有) 2.UNION ALL合并結果集 四、行轉列練習:CASE WHEN/DECODE/PIVOT/lag/LEAD 1.CASE WHEN 2…

【Excel VBA 】窗體控件分類

一、Excel 窗體控件分類 Excel 中的窗體控件分為兩大類型,適用于不同的開發需求: 類型所在選項卡特點表單控件開發工具 → 插入 → 表單控件簡單易用,直接綁定宏,兼容性好,適合基礎自動化操作。ActiveX 控件開發工具…

[ 計算機網絡 ] 深入理解OSI七層模型

🎉歡迎大家觀看AUGENSTERN_dc的文章(o゜▽゜)o☆?? 🎉感謝各位讀者在百忙之中抽出時間來垂閱我的文章,我會盡我所能向的大家分享我的知識和經驗📖 🎉希望我們在一篇篇的文章中能夠共同進步!!&…

線性代數之張量計算,支撐AI算法的數學原理

目錄 一、張量計算的數學本質 1、線性代數:張量的幾何與代數性質 2、微積分:梯度與自動微分 3、優化理論:張量分解與正則化 4、張量計算的核心操作 二、張量計算在AI算法中的作用 1、數據表示與處理 2、神經網絡的參數表示 3、梯度計算與優化 三、張量計算在AI中的…

打造一個支持MySQL查詢的MCP同步插件:Java實現

打造一個支持MySQL查詢的MCP同步插件:Java實現 用Java實現一個MCP本地插件,直接通過JDBC操作本地MySQL,并通過STDIO與上層MCP客戶端(例如Cursor)通信。插件注冊一個名為mysql 的同步工具,接收連接參數及SQL…

【數據架構01】數據技術架構篇

? 9張高質量數據架構圖:大數據平臺功能架構、數據全生命周期管理圖、AI技術融合架構等; 🚀無論你是數據架構師、治理專家,還是數字化轉型負責人,這份資料庫都能為你提供體系化參考,高效解決“架構設計難、…

java三種常見設計模式,工廠、策略、責任鏈

設計模式實戰解析 一、工廠模式(點外賣模式) 1. 核心思想 代替直接new對象像點外賣一樣獲取對象 2. 實際應用 Spring框架:BeanFactoryJDBC:DriverManager.getConnection() 3. 三種變體對比 類型特點示例場景簡單工廠一個工…

jenkins使用Send build artifacts over SSH發布jar包目錄配置

本測試用ruoyi-plus的代碼。 1 [GitLab 自動觸發 Jenkins 構建_jenkins構建觸發器沒有build when a change is pushed to git-CSDN博客](https://blog.csdn.net/wangyiyungw/article/details/81776972) 2 [jenkins使用Send build artifacts over SSH遇到的坑-CSDN博客](https…

vscode打開vue + element項目

好嘞,我幫你詳細整理一個用 VS Code 來可視化開發 Vue Element UI 的完整步驟,讓你能舒服地寫代碼、預覽界面、調試和管理項目。 用 VS Code 可視化開發 Vue Element UI 全流程指南 一、準備工作 安裝 VS Code 官網下載安裝:https://code…

黑馬程序員C++2024新版筆記 第4章 函數和結構體

目錄 1.結構體的基本應用 2.結構體成員的默認值 3.結構體數組 4.結構體指針 ->操作符 5.結構體指針數組 1.引入已存在的結構體數組地址 2.通過new操作符申請指針數組空間 6.函數的概念 7.函數的基礎語法 8.無返回值函數和void類型 9.空參函數 10.函數的嵌套調用…

高級前端工程師必備的 JS 設計模式入門教程,常用設計模式案例分享

目錄 高級前端工程師必備的 JS 設計模式入門教程,常用設計模式案例分享 一、什么是設計模式?為什么前端也要學? 1、設計模式是什么 2、設計模式的產出 二、設計模式在 JS 里的分類 三、常用設計模式實戰講解 1、單例模式(S…

Ubuntu+Docker+內網穿透:保姆級教程實現安卓開發環境遠程部署

文章目錄 前言1. 虛擬化環境檢查2. Android 模擬器部署3. Ubuntu安裝Cpolar4. 配置公網地址5. 遠程訪問小結 6. 固定Cpolar公網地址7. 固定地址訪問 前言 本文將詳細介紹一種創新性的云開發架構:基于Ubuntu系統構建Android仿真容器環境,并集成安全隧道技…

Linux Kernel調試:強大的printk(一)

引言 想了好久,還是覺得這個標題才配得上printk!^_^ 我相信,不管做什么開發,使用最多的調試手段應該就是打印了,從我們學習編程語言第一課開始,寫的第一段代碼,就是打印"Hello, world&qu…

基于NLP技術的客戶投訴與需求文本分類方法研究

目錄 摘要 1. 引言 2. 文本分類基礎 2.1 文本分類的定義與類型 2.2 文本分類的評價指標 3. 傳統文本分類方法 3.1 基于TF-IDF和SVM的方法 3.2 基于主題模型和詞向量的改進方法 4. 深度學習文本分類方法 4.1 TextCNN模型 4.2 BiLSTM模型 4.3 注意力機制與Transformer…

#RabbitMQ# 消息隊列入門

目錄 一 MQ技術選型 1 運行rabbitmq 2 基本介紹 3 快速入門 1 交換機負責路由消息給隊列 2 數據隔離 二 Java客戶端 1 快速入門 2 WorkQueue 3 FanOut交換機 4 Direct交換機 5 Topic交換機 *6 聲明隊列交換機 1 在配置類當中聲明 2 使用注解的方式指定 7 消息轉…

【深度學習】多目標融合算法(六):漸進式分層提取模型PLE(Progressive Layered Extraction)

目錄 一、引言 二、PLE(Progressive Layered Extraction,漸進式分層提取模型) 2.1 技術原理 2.2 技術優缺點 2.3 業務代碼實踐 2.3.1 業務場景與建模 2.3.2 模型代碼實現 2.3.3 模型訓練與推理測試 2.3.4 打印模型結構 三、總結 一…