[論文閱讀] 人工智能 | Gen-n-Val:利用代理技術革新計算機視覺數據生成

Gen-n-Val:利用代理技術革新計算機視覺數據生成

論文信息

@article{huang2025gennval,title={Gen-n-Val: Agentic Image Data Generation and Validation},author={Huang, Jing-En and Fang, I-Sheng and Huang, Tzuhsuan and Wang, Chih-Yu and Chen, Jun-Cheng},journal={arXiv preprint arXiv:2506.04676},year={2025}
}

在這里插入圖片描述

研究背景:計算機視覺的數據困境

在計算機視覺領域,數據就像模型的"糧食"。想象一下,自動駕駛系統需要識別路上的各種物體——從常見的汽車、行人,到罕見的施工警示牌或野生動物。但現實是,標注大規模高質量數據集耗時又費力,比如標注一張圖像中的物體邊界可能需要數分鐘,而訓練一個先進模型可能需要數萬張圖像。

更麻煩的是"標簽噪聲"問題:人工標注難免出錯,可能把"卡車"誤標為"公交車",或者分割掩碼漏掉物體的一部分。這就像給學生批改作業時寫錯答案,模型會跟著學歪。

為解決數據稀缺,研究者想到生成合成數據。但傳統方法好比"粗制濫造的流水線":比如MosaicFusion生成的圖像中,50%存在嚴重問題——要么一個掩碼里包含多個物體(像把貓和狗畫在同一個框里),要么分割不準確(比如蘋果的掩碼多出一塊陰影),甚至標簽錯誤(把橘子標成蘋果)。這種"劣質數據"喂給模型,反而會降低性能。

創新點:給數據生成裝上"智能質檢員"

Gen-n-Val的核心創新是引入兩個"智能代理",讓數據生成過程像有經驗的工匠一樣精益求精:

  1. LD提示代理(LLM大腦):用大語言模型優化圖像生成提示詞,就像一個文案專家,把簡單的"生成一只狗"變成"高分辨率、陽光下的金毛尋回犬,背景干凈,毛發細節清晰",確保層擴散模型生成單對象、高精度的前景圖像和分割掩碼。

  2. 數據驗證代理(VLLM質檢員):用視覺語言模型充當"質檢員",自動檢查生成的圖像是否符合標準——是否只有一個對象、是否完整、背景是否干凈。這就像工廠里的質檢流水線,把不合格的產品(如包含多個物體的圖像)過濾掉。

研究方法和思路:數據生成的四步流水線

1. 智能提示詞生成:讓機器學會"精準描述"

  • 傳統方法用"single object"這樣的簡單提示,結果模糊不清。Gen-n-Val用TextGrad技術優化提示詞,就像反復調整搜索關鍵詞:先讓LLM生成初始提示,再根據生成效果用梯度下降優化,直到提示詞能精準指導層擴散模型生成單對象圖像。
  • 例如,將"生成一個橙子"優化為"高分辨率、陽光下的鮮橙,表皮有細微紋理,背景純白"。

2. 前景與背景分離生成:像剪紙一樣精準

  • 利用層擴散(LD)技術生成透明前景圖像,每個像素包含RGB值和透明度通道,直接作為分割掩碼。這就像用透明膠片剪出物體輪廓,無需額外分割算法。
  • 同時生成多樣化背景(室內/室外),解決傳統方法中背景單一的問題。

3. 自動質量過濾:拒絕"殘次品"

  • VLLM作為驗證代理,按四個標準檢查圖像:
    • 單對象(Only one object)
    • 單視角(Single viewpoint)
    • 完整無缺(Intact object)
    • 背景簡潔(Plain background)
  • 例如,發現圖像中有兩個雪人的話,直接過濾。

4. 圖像和諧合成:打造真實場景

  • 用圖像和諧技術將多個前景對象粘貼到背景中,調整顏色和光影,讓合成圖像看起來自然真實,就像用Photoshop精心處理過一樣。

主要貢獻:數據質量提升帶來模型性能飛躍

  1. 數據質量革命:將無效數據從MosaicFusion的50%降至7%,相當于工廠廢品率大幅下降。

  2. 模型性能顯著提升

    • 在COCO實例分割中,YOLOv9c的掩碼mAP提升2.1%,稀有類別提升3.6%;YOLO11m的掩碼mAP提升3.1%,稀有類別提升3.6%。
    • 在開放詞匯目標檢測中,YOLO11m相比基線提升7.1% mAP,相當于能多識別7%的新類別物體。
  3. 為稀有類別"雪中送炭":傳統方法對罕見物體(如"鴕鳥")效果差,Gen-n-Val通過合成更多稀有類數據,讓模型不再"少見多怪"。

  4. 可擴展的解決方案:數據量越大效果越好,生成20K數據時模型性能仍在提升,適合大規模應用。


關鍵問題

  1. Gen-n-Val如何解決現有合成數據的質量問題?
    • 答案:Gen-n-Val通過兩個代理協同工作,LD提示代理(LLM)優化LD提示,生成單對象、精確掩碼的前景實例和干凈背景;數據驗證代理(VLLM)按單對象、單視角等標準過濾低質量圖像,結合TextGrad優化提示,將無效數據從50%降至7%。
  2. Gen-n-Val在YOLO系列模型上的性能提升如何?
    • 答案:在COCO實例分割中,YOLOv9c箱mAP提升1.8%、掩碼mAP提升2.1%,稀有類掩碼mAP提升3.6%;YOLO11m箱mAP提升2.1%、掩碼mAP提升3.1%,稀有類掩碼mAP提升3.6%。在開放詞匯目標檢測中,YOLO11m箱mAP提升7.1%、掩碼mAP提升4.9%。
  3. Gen-n-Val的可擴展性如何?
    • 答案:隨著合成數據集規模增加,模型性能持續提升。在COCO數據集上,使用20K合成數據時,YOLO11m箱mAP達52.0,掩碼mAP達43.0,相比4K數據分別提升1.2%和0.8%。

總結:讓數據生成更智能,讓模型訓練更高效

Gen-n-Val通過引入LLM和VLLM代理,將數據生成從"粗放式生產"升級為"智能制造":用語言模型優化生成提示,用視覺語言模型保證數據質量,最終實現"高質量數據→高性能模型"的良性循環。

實驗表明,這種方法在實例分割和開放詞匯檢測中均大幅超越傳統技術,尤其對稀有類別效果顯著。未來,該框架有望成為計算機視覺數據增強的標配工具,緩解數據稀缺問題,推動自動駕駛、醫療影像等領域的發展。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85243.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85243.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85243.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【AI論文】ReasonMed:一個370K的多智能體生成數據集,用于推進醫療推理

摘要:盡管基于推理的大型語言模型(LLM)在數學和編程方面表現出色,但它們在知識密集型醫療問題回答方面的能力仍未得到充分探索。為解決這一問題,我們推出了ReasonMed,這是最大的醫療推理數據集,…

singlefligt使用方法和源碼解讀

singlefligt使用方法和源碼解讀 介紹 sync.once保證其整個生命周期內只調用一次;而singleflight則可以保證在一定范圍內其只調用一次。 背景|使用場景 應對緩存擊穿:加鎖可以解決這個問題,但是加鎖不太靈活(不能控制訪問頻率之…

HTTP 協議的基本概念(請求/響應流程、狀態碼、Header、方法)問題解決方案大全

HTTP 協議的基本概念(請求/響應流程、狀態碼、Header、方法)問題解決方案大全 一. 摘要 HTTP 協議是 Web 開發的基石,但初學者往往只停留在 GET、POST 的層面,對重定向機制、緩存控制、請求體解析等概念缺乏深入理解,…

Python中常用的函數

以下是Python中常用的函數分類整理,涵蓋基礎操作、數據處理、文件操作、面向對象等場景,并附上示例說明: --- ### **一、基礎內置函數** | 函數 | 作用 | 示例 | |----…

【Windows】刪除鼠標右鍵多余菜單的方法

要刪除鼠標右鍵菜單中的多余菜單,如:“打開抖音壁紙”選項,通常需要通過修改注冊表或使用第三方工具來清理殘留的注冊表項。以下是詳細步驟(操作注冊表前務必備份!): 方法一:通過注冊…

【性能優化】啟用zram

性能優化 系統內存不足時,可以考慮啟動ZRAM功能(壓縮內存)。關于ZRAM的概念,可自行學習。這里記錄一下,啟用ZRAM的方式。 啟用ZRAM,可能會導致CPU升高,以及低內存時的惡性循環。是否啟用需要綜…

深度解析YOLOv8:CSPHet卷積結構如何實現極致輕量化

文章目錄 一、背景介紹1.1 YOLOv8的現狀1.2 降參數的必要性 二、相關技術介紹2.1 Dual思想2.2 HetConv 三、CSPHet結構設計3.1 CSP模塊的改進3.2 結合HetConv3.3 參數量的下降 四、CSPHet的代碼實現五、實驗結果六、總結與展望 在目標檢測領域,YOLO系列算法一直以其…

適配器模式demo

#include <QCoreApplication> #include <iostream>using namespace std;class XmCom { public:void ComByXm(){cout << "XM電源適配器只適用于小米筆記本電腦" << endl;} };class LxCom { public:virtual void ComByLx() 0;virtual ~LxCom…

數據處理考核要求-SQL測試的答案

在一個團隊中&#xff0c;有業務人員。如業務人員深入理解數據處理的內容&#xff0c;會大幅度增強相互配合的效率。 針對業務人員進行針對性培訓&#xff0c;還是比較容易掌握SQL的數據處理。類似與大學里面開的一門選修課。數據集選擇帆軟的Demo數據集。 業務人員學會SQL的…

第十七屆全國大學生數學競賽(數學類)初賽模擬試題

上周組委會發布了第十七屆全國大學生數學競賽通知&#xff0c;初賽暫定于2025年11月8日(星期六)上午9:00-11:30舉行&#xff0c;同時今年新增了個亮點&#xff0c;針對與數學類的同學&#xff0c;即&#xff1a; 為提升全國大學生數學競賽的含金量和公平性&#xff0c;并進一步…

解決: React Native iOS webview 空白頁

iOS react-native-webview 之前是正常的, 升級了 react-native / react-native-webview 等 之后, 就變成了空白頁. 通過下面的修改, 可以修復, 回到正常的狀態. 來源: https://github.com/react-native-webview/react-native-webview/issues/3697 diff --git a/node_modules/…

VMware安裝Ubuntu并實現root遠程登錄

前置信息 垃圾Ubuntu系統默認ssh、vim都沒有&#xff01;&#xff01;&#xff01; 已踩坑cnmUbuntu處于sb安全機制要求&#xff0c;默認是禁用root直接登錄的 1、修改root密碼 sudo -sH &#xff08;可以讓一個具有sudo權限的普通用戶進入 root&#xff09; 然后就是pas…

量化面試綠皮書:20. 正態生成

文中內容僅限技術學習與代碼實踐參考&#xff0c;市場存在不確定性&#xff0c;技術分析需謹慎驗證&#xff0c;不構成任何投資建議。 20. 正態生成 Q: 如何生成兩個標準正態分布&#xff08;N(0,1)&#xff09;的隨機變量&#xff0c;使它們之間的相關系數為p&#xff0c;假設…

Arduino入門教程:10、屏幕顯示

飛書文檔https://x509p6c8to.feishu.cn/docx/N45Pd0tA1oaC4CxUWZjc8Ekyn0b 屏幕應用場景 課程使用的SSD1306是一款128*64像素可以使用IIC驅動的OLED屏幕。 SSD1306 Oled顯示模塊共有4個引腳&#xff0c;標記為GND, VCC, SCL和SDA。這種Oled顯示模塊可以使用3.3V到5V輕松上電。…

華為云Flexus+DeepSeek征文|體驗華為云ModelArts快速搭建Dify-LLM應用開發平臺并創建自己dify釘釘群聊機器人

華為云FlexusDeepSeek征文&#xff5c;體驗華為云ModelArts快速搭建Dify-LLM應用開發平臺并創建自己dify釘釘群聊機器人 什么是華為云ModelArts 華為云ModelArts ModelArts是華為云提供的全流程AI開發平臺&#xff0c;覆蓋從數據準備到模型部署的全生命周期管理&#xff0c;幫…

【Pytorch】(1)Pytorch環境安裝-①創建虛擬環境

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、創建Pytorch的虛擬環境 前言 提示&#xff1a;以下是本篇文章正文內容&#xff0c;下面案例可供參考 一、Anaconda環境基礎操作 1.1 啟動Anaconda Prompt …

如何自定義WordPress登錄頁面,提升用戶體驗和安全性

WordPress是目前最受歡迎的網站搭建平臺之一&#xff0c;無論是個人博客、企業網站&#xff0c;還是電商平臺&#xff0c;很多人都選擇用它來搭建自己的網站。不過&#xff0c;很多WordPress用戶會發現默認的登錄頁面相對普通&#xff0c;無法體現自己網站的特色。其實&#xf…

Coze扣子 - AI生成數字人口播視頻

一、數字人介紹 數字人&#xff08;Digital Human&#xff09;是指利?先進的數字技術和??智能創建的虛擬人 類形象&#xff0c;能夠模擬?類的外貌、?為和情感。數字?不僅可以在視覺上表 現出真實的?類特征&#xff0c;還可以通過?然語?處理與?戶進?互動。 Coze通過全…

【請關注】真實案例pg及kong安裝部署

# 前提需要安裝好nfs KONG_NAMESPACE="kong-api" PG_NAMESPACE="pg-ha" HARBOR_IP="harbor.rancher.com" 一、安裝pg高可用####################################################################################### kubectl creat…

SSRF7 SSRF漏洞的檢測方式

我們可以進入bp利用bp模塊collaborator&#xff0c;進行檢測&#xff1a; 我們點擊復制到剪切板&#xff1a; 然后再到目標網站進行構造URL&#xff1a; http://192.168.112.12/pikachu-master/vul/ssrf/ssrf_curl.php?urlmvluewtgs390alohzqjakhu2qtwkkc81.oastify.com 然…