PromptAD:首次引入提示學習,實現精準工業異常檢測,1張正常樣本即可超越現有方法

近年來,工業異常檢測(Anomaly Detection)在智能制造、質量監控等領域扮演著越來越重要的角色。傳統方法通常依賴大量正常樣本進行訓練,而在實際生產中,異常樣本稀少甚至不存在,能否僅憑少量正常樣本就實現精準的異常檢測,成為了一項重要挑戰。

screenshot_2025-09-15_15-53-51.png

PromptAD?方法首次將提示學習(Prompt Learning)?引入單類別異常檢測任務中,僅使用正常樣本就能自動學習有效的提示詞,在多個標準數據集上取得了領先性能。


少樣本異常檢測的難點

異常檢測本質上是一個單類別分類(One-Class Classification, OCC)?問題:訓練時只有正常樣本,測試時則需要識別出異常。

現有的基于視覺-語言模型(如CLIP)的方法(例如WinCLIP)雖然效果顯著,但依賴大量人工設計的提示詞(Prompt Ensemble),需要組合成百上千個文本提示才能達到理想效果。這不僅費時費力,還難以自動化部署。

更遺憾的是,傳統的多類別提示學習方法(如CoOp)在異常檢測任務上表現不佳,因為它們缺乏負樣本(異常樣本)的對比信息。

總結而言異常樣本太少、異常千奇百怪、人工成本高。


PromptAD創新方案

PromptAD 之所以能夠在 “只看正常樣本” 的情況下依舊精準檢測異常,關鍵在于它提出了三大創新:

  • 語義拼接(Semantic Concatenation,SC)

在小樣本異常檢測中,訓練集通常只包含正常樣本,沒有異常樣本可供學習。

而傳統的 Prompt 學習依賴“對比學習”(Contrastive Learning):正常和異常要互相對比,模型才能學會區分。

但如果沒有異常樣本,這個“對比”就無法進行。

核心思路

研究者提出了一種巧妙的方法:通過語言構造虛擬異常。

給正常的提示詞加上“異常后綴”,從而生成異常提示詞。

舉例:

  • 正常提示詞:“a photo of cable”(一張電纜的照片)

  • 異常提示詞:“a photo of cable with flaw”(一張有缺陷的電纜照片)

這樣,哪怕沒有真實異常圖像,模型也能通過這些“虛擬異常描述”來建立對比關系,從而學會區分正常和異常。

技術細節

  • 手工異常后綴(MAP):利用數據集里的標簽信息(如?crack、stain、hole?等),拼接成異常提示詞。

  • 可學習異常后綴(LAP):在手工后綴之外,再增加一組可學習的“異常符號”,不斷訓練,讓模型自己去探索更豐富的異常語義。

  • 結果:正常提示詞(NP)與異常提示詞(MAP/LAP)共同參與訓練,形成有效的對比學習。

screenshot_2025-09-15_15-52-46.png

  • 顯式異常邊界(Explicit Anomaly Margin,EAM)

即使通過語義拼接生成了異常提示詞,仍然有一個問題:

這些異常提示詞并不來自真實異常樣本,模型無法自動判斷“正常”和“異常”之間該保持多大的差距。

核心思路

研究者提出了顯式異常邊界的概念:

在訓練過程中,引入一個超參數,強制約束:

  • 正常樣本與正常提示詞的距離要比正常樣本與異常提示詞的距離更小。

  • 換句話說,在特征空間里畫一條“安全邊界”,讓正常與異常的分布明顯分開。

技術細節

  • 使用了正則化損失函數,使得模型在學習時不斷維持這個邊界。

  • 為了讓可學習的異常提示(LAP)更貼近真實語義,還引入了一個“對齊機制”,讓 LAP 的分布與 MAP 保持一致。

screenshot_2025-09-15_15-54-41.png

  • 雙重檢測機制:Prompt + Vision

異常檢測既需要整體判斷(這張圖是否異常?),又需要局部定位(異常具體在哪?)。

單靠?Prompt?引導(語義信息)或單靠圖像特征(視覺信息)都不夠全面。

核心思路

  • PromptAD?結合了兩種機制:

  • Prompt-guided AD (PAD)

  • 利用語義信息(Prompt)來判斷正常 vs 異常。

  • 擅長 圖像級別 的分類。

  • Vision-guided AD (VAD)

  • 在訓練階段記憶“正常樣本”的局部特征,在測試時對比差異。

  • 擅長像素級別的定位。

  • 融合

  • 兩者結果通過調和平均進行融合,既保證整體判斷,又能精確圈出異常區域。

screenshot_2025-09-15_15-54-24.png

screenshot_2025-09-15_15-55-19.png


效果如何?

團隊在兩個經典工業數據集(MVTec 和 VisA)上做了測試:

  • 在 11/12 個少樣本場景中拿下第一。

  • 在 僅有 1 張正常樣本的條件下,PromptAD 圖像級檢測 AUROC 達 94.6%,比 WinCLIP 提高了 1.3%。

  • 在 4 張樣本條件下,AUROC 達 96.6%,幾乎接近全監督方法的表現。

screenshot_2025-09-15_16-01-25.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/100394.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/100394.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/100394.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

算法 --- 字符串

字符串 字符串算法題目主要處理文本的查找、匹配、比較、變換和統計問題,其核心特點是輸入數據為字符序列,解題關鍵在于利用其連續性、前綴性、字典序等特性,并常借助哈希、自動機、指針滑動、動態規劃等技巧高效處理。 詳細分類型與適用場景…

SpringBoot中 Gzip 壓縮的兩種開啟方式:GeoJSON 瘦身實戰

目錄 前言 一、GZIP壓縮知識簡介 1、什么是Gzip 2、Gzip特點 3、Gzip在GIS方面的應用 二、SpringBoot中開啟Gzip的方式 1、在SpringBoot中開啟Gzip的知識簡介 2、SpringBoot中GeoJSON的實例 三、全局開啟Gzip實現 1、實現原理 2、實現效果 四、局部約定配置 1、實現…

PPTist+cpolar:開源演示文稿的遠程創作方案

文章目錄前言【視頻教程】1. 本地安裝PPTist2. PPTist 使用介紹3. 安裝Cpolar內網穿透4. 配置公網地址6. 配置固定公網地址前言 PPTist作為開源在線演示文稿工具,提供媲美PowerPoint的核心功能,支持多頁面編輯、圖表插入、音視頻嵌入和動畫效果設置。特…

服務注冊/服務發現-Eureka

目的:解決微服務在調用遠程服務時URL寫死的問題注冊中心服務提供者(Server):一次業務中,被其他微服務調用的服務,也就是提供接口給其他微服務。服務消費者(Client):一次業務中&#…

cuda stream

基本概念 cuda stream表示GPU的一個操作隊列,操作在隊列中按照一定的順序執行,也可以向流中添加一定的操作如核函數的啟動、內存的復制、事件的啟動和結束等 一個流中的不同操作有著嚴格的順序,但是不同流之間沒有任何限制 cuda stream中排隊…

數據結構:完全二叉樹

完全二叉樹 定義: 按層序遍歷(從上到下,從左到右)填充節點。 除了最后一層外,其余各層必須全滿。 最后一層的節點必須 連續靠左。 完全二叉樹不一定是滿二叉樹。 滿二叉樹 (Full Binary Tree):每個節點都有…

【Java初學基礎】?Object()頂級父類與它的重要方法equals()

object類常見方法/*** native 方法&#xff0c;用于返回當前運行時對象的 Class 對象&#xff0c;使用了 final 關鍵字修飾&#xff0c;故不允許子類重寫。*/ public final native Class<?> getClass() /*** native 方法&#xff0c;用于返回對象的哈希碼&#xff0c;主…

用深度學習(LSTM)實現時間序列預測:從數據到閉環預測全解析

用深度學習&#xff08;LSTM&#xff09;實現時間序列預測&#xff1a;從數據到閉環預測全解析 時間序列預測是工業、金融、環境等領域的核心需求——小到預測設備溫度波動&#xff0c;大到預測股價走勢&#xff0c;都需要從歷史數據中挖掘時序規律。長短期記憶網絡&#xff08…

gpu-z功能介紹,安裝與使用方法

GPU-Z 功能介紹、安裝與使用方法 一、核心功能 硬件信息檢測 識別顯卡型號、制造商、核心架構&#xff08;如NVIDIA Ada Lovelace、AMD RDNA 3&#xff09;、制造工藝&#xff08;如5nm、7nm&#xff09;。顯示顯存類型&#xff08;GDDR6X、HBM2e&#xff09;、容量、帶寬及顯…

數據搬家后如何處理舊 iPhone

每年&#xff0c;蘋果都會推出新款 iPhone&#xff0c;激發了人們升級到 iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max 或 iPhone Air 等新機型的熱情。但在獲得新 iPhone 之前&#xff0c;有一件重要的事情要做&#xff1a;將數據從舊 iPhone 轉移到新設備。雖然許多用戶都能…

Java關鍵字深度解析(上)

這是一份全面的Java關鍵字實戰指南 目錄 1.數據類型關鍵字:內存布局與性能優化 1.1 基礎類型的內存密碼 byte-內存的極簡主義者 int-Java世界的萬能鑰匙 long - 時間與ID的守護者 1.2 引用類型的架構設計 String-不是關鍵字但勝于關鍵字 2.訪問修飾符:企業級權限控制 …

C語言深度解析:指針數組與數組指針的區別與應用

目錄 1 引言&#xff1a;從名字理解本質區別 2 指針數組&#xff1a;靈活管理多個指針 2.1 基本概念與聲明方式 2.2 內存布局與特性 2.3 典型應用場景&#xff1a;字符串數組與多維度數據管理 2.3.1 靜態分配示例&#xff1a;字符串數組 2.3.2 動態分配示例&#xff1a;…

Node.js 高級應用:負載均衡與流量限制

在當今高并發的網絡應用環境中&#xff0c;如何有效地分配服務器資源并保護系統免受惡意攻擊是開發者必須面對的重要問題。Node.js 作為一款廣受歡迎的服務器端 JavaScript 運行時環境&#xff0c;提供了豐富的工具和模塊來應對這些挑戰。本文將深入探討如何在 Node.js 中實現負…

信任鏈驗證流程

信任鏈驗證流程 (The Chain of Trust)整個過程就像一場嚴格的接力賽&#xff0c;每一棒都必須從可信的上一位手中接過接力棒&#xff08;信任&#xff09;&#xff0c;驗證無誤后&#xff0c;再跑自己的那段路&#xff0c;并把信任傳遞給下一棒現在&#xff0c;我們來詳細解讀圖…

黃昏時刻復古膠片風格人像風光攝影后期Lr調色教程,手機濾鏡PS+Lightroom預設下載!

調色教程這套 黃昏時刻復古膠片風格人像風光攝影后期 Lr 調色方案&#xff0c;以落日余暉為核心色彩元素&#xff0c;加入復古膠片質感&#xff0c;讓畫面充滿溫暖與懷舊氛圍。整體色調偏向橙紅與青綠的互補對比&#xff0c;天空的夕陽光影與人像膚色相互映襯&#xff0c;既有膠…

硬件驅動——I.MX6ULL裸機啟動(3)(按鍵設置及中斷設置

重點&#xff1a;1.GIC&#xff1a;&#xff08;Generic Interrupt Controller&#xff09;通用中斷控制器&#xff0c;是ARM架構中用于管理中斷的核心模塊&#xff0c;主要用于現代多核處理器系統。它負責接收&#xff0c;分發并分發中斷請求&#xff0c;減輕CPU負擔&#x…

用deepseek對GPU服務器進行壓力測試

利用 DeepSeek 模型對 GPU 服務器進行壓力測試&#xff0c;核心思路是通過模擬高負載的模型推理 / 微調任務&#xff0c;驗證 GPU 服務器在計算、顯存、網絡等維度的承載能力&#xff0c;同時觀察穩定性與性能瓶頸。以下是具體的測試方案&#xff0c;涵蓋測試環境準備、核心測試…

ARM(7)IMX6ULL 按鍵控制(輪詢 + 中斷)優化工程

一、硬件介紹1. 開關功能定義共 3 個開關&#xff08;兩紅一黃&#xff09;&#xff0c;功能分工明確&#xff1a;中間開關&#xff1a;復位按鈕左邊開關&#xff1a;低功耗按鈕右邊開關&#xff1a;用戶獨立控制的試驗按鍵&#xff08;核心控制對象&#xff09;2. 核心電平邏輯…

【QT隨筆】什么是Qt元對象系統?Qt元對象系統的核心機制與應用實踐

【QT隨筆】什么是Qt元對象系統&#xff1f;Qt元對象系統的核心機制與應用實踐 之所以寫下這篇文章&#xff0c;是因為前段時間自己面試的時候被問到了&#xff01;因此想借此分享一波&#xff01;&#xff01;&#xff01;本文主要詳細解釋Qt元對象系統的概念、作用及實現機制…

從技術視角解析加密貨幣/虛擬貨幣/穩定幣的設計與演進

隨著加密貨幣行情的持續走高&#xff0c;除了資產價值&#xff0c;我想試著從底層程序設計與架構角度解析比特幣、以太坊、穩定幣以及新興公鏈的核心技術方案。作者在2018年設計實施了基于區塊鏈技術的金融項目&#xff0c;并榮獲了國家課題進步獎&#xff0c;對加密貨幣及場景…