摘要
????????在計算機視覺領域,目標檢測需要大量精準標注數據,但人工標注成本高昂。弱監督目標檢測通過低成本標注訓練模型,成為近年研究熱點。本文提出一種基于點標注的弱監督目標檢測算法,僅需在圖像中物體中心點標注,即可高效定位和分類目標。通過構建空間關系、語義關聯和實例計數三大模塊,算法顯著提升了檢測精度,為低成本視覺任務提供了新方案。
一、研究背景
????????傳統目標檢測依賴人工標注的邊界框,例如標注一張包含汽車的圖片需畫出汽車輪廓,耗時費力。弱監督方法使用圖像級標簽(如 “圖片中有汽車”)降低成本,但存在三大難題:
- 定位不準:模型可能只識別汽車輪胎等局部特征,而非完整汽車;
- 語義混淆:多物體場景中漏檢部分類別(如同時存在汽車和行人時漏檢行人);
- 實例模糊:無法區分同一類別多個物體(如停車場中的多輛汽車)。
????????點標注是一種折中方案:只需在物體中心打一個點,提供位置、類別和數量信息。例如,在醫療圖像中,醫生只需在腫瘤中心標注點,即可訓練模型檢測腫瘤。
二、算法設計
(一)整體框架
算法包含三大核心模塊,分別解決三大難題:
- 空間圖模塊(SGB):利用標注點周圍的空間關系,推斷完整目標范圍;
- 語義分支(MSB):分析類別間關聯(如 “汽車” 常與 “道路” 同時出現),提升多標簽檢測能力;
- 實例計數模塊(CIB):根據標注點數量區分多個物體(如 3 個標注點對應 3 輛汽車)。
(二)關鍵技術
1. 空間圖模塊:從點到完整目標
- 原理:標注點通常位于物體中心,其周圍區域大概率屬于同一物體。例如,在 “貓” 的標注點附近,算法通過計算候選框的重疊度(IoU),將重疊度高于 0.8 的區域視為相關區域,構建 “空間圖” 關聯這些區域的特征。
- 效果:避免模型僅關注貓的頭部,而是通過整合頭部、身體、尾巴的特征,檢測完整的貓。
2. 語義分支:挖掘類別關聯
- 方法:利用詞向量分析類別間的語義共現概率。例如,“鳥” 和 “天空” 在文本中常一起出現,算法在檢測 “鳥” 時會增強對 “天空” 區域的關注,減少背景干擾。
- 實現:通過自然語言處理模型(如 Word2Vec)生成類別詞向量,計算 “鳥” 與 “天空” 的余弦相似度,融合相關類別特征。
3. 實例計數模塊:區分多物體
- 策略:若圖像中某類別有 N 個標注點,則視為 N 個實例。例如,停車場圖像中 3 個 “汽車” 標注點,算法會篩選 3 個高得分候選框,分別對應 3 輛汽車,避免將多輛車誤檢為 1 輛。
三、實驗驗證
(一)數據集與標注
- 模擬數據集:使用合成圖像數據集 “CarPark”(包含 1000 張停車場圖片),每張圖片人工標注汽車中心點,部分圖片包含多輛汽車。
- 對比方法:
- 基線模型:僅使用圖像級標簽的弱監督算法(如 WSDDN);
- 全監督模型:使用邊界框標注的 Faster R-CNN。
(二)核心結果
方法 | 定位準確率(%) | 多車檢測召回率(%) | 類別混淆率(%) |
---|---|---|---|
基線模型 | 65.2 | 58.3 | 22.1 |
本文算法 | 81.5 | 89.7 | 10.4 |
全監督模型 | 89.2 | 92.5 | 5.6 |
- 定位準確率:本文算法比基線模型提升 16.3%,接近全監督模型水平,證明點標注有效彌補了位置信息缺失。
- 多車檢測:基線模型常將多輛車誤檢為 1 輛(召回率 58.3%),本文算法通過實例計數模塊將召回率提升至 89.7%。
- 類別混淆:語義分支顯著降低了 “汽車” 與 “卡車” 等相似類別的混淆率(從 22.1% 降至 10.4%)。
四、應用場景
- 自動駕駛:標注員只需在車載攝像頭圖像中標注行人、車輛中心點,算法可實時檢測完整目標,降低標注成本;
- 工業檢測:在機械零件圖像中標注缺陷點,算法可定位完整缺陷區域,適用于螺絲缺失、表面裂紋等檢測;
- 衛星遙感:在遙感圖像中標注建筑中心點,算法可檢測完整建筑輪廓,提升城市規劃中的用地統計效率。
五、結論與展望
????????本文提出的點標注弱監督算法,通過空間、語義、實例三層關系建模,有效解決了傳統弱監督檢測的核心難題。實驗表明,其性能接近全監督模型,但標注成本大幅降低。未來可進一步優化模型輕量化,拓展至醫療顯微圖像等更復雜場景,推動低成本視覺技術的實際應用。
關鍵詞:弱監督學習;目標檢測;點標注;空間關系;語義關聯