工業質檢/缺陷檢測領域最新頂會期刊論文收集整理 | AAAI 2025【持續更新中】

會議官方論文列表:https://ojs.aaai.org/index.php/AAAI/issue/view/624
其中,2025年是第三十九屆AAAI人工智能大會,主要對第三十九屆相關論文進行梳理,當前已初版28期(volume 39 no. 28)

【Attention】

  • 雖然本文主要面向的領域是工業質檢,但實際在整理論文時,能夠落在工業領域的通用算法(如分類/檢測/分割)其他領域中與本文共通的問題(變化檢測/醫學領域低對比度/無人機方向小目標) 等,都會被整理于下方。
  • 帶??的為個人認為較好、且提供開源代碼供復現結果的論文
  • 本文中提供的中文摘要為軟件自動翻譯而來,存在一些專業術語的錯誤,感興趣的論文建議直接點擊標題跳轉原文閱讀
  • 舍棄了部分有一定相關性但是沒有提供源碼的論文

總結

  • 在骨干網絡方面,新的基礎網絡mamba、脈沖網絡相關論文較多
  • 在領域方面,醫學領域的分割任務研究較多

會議簡介

第三十九屆美國人工智能協會(AAAI)人工智能大會于2025年2月25日至3月4日在賓夕法尼亞州費城舉行。程序委員會主席為Julie Shah(美國麻省理工學院)和Zico Kolter(美國卡內基梅隆大學)。

本次會議的范圍涵蓋機器學習、自然語言處理、計算機視覺、數據挖掘、多智能體系統、知識表示、人機協作人工智能、搜索、規劃、推理、機器人與感知,以及倫理道德。除了專注于上述任一領域的基礎研究工作外,AAAI - 25還鼓勵開展跨人工智能技術領域的研究(例如,機器學習與計算機視覺;計算機視覺與自然語言處理;或機器學習與規劃),探索人工智能與相關研究領域之間的聯系(例如,神經科學;認知科學),或者在重要應用領域(如醫療保健、可持續發展、交通和商業)中開發人工智能技術。

論文梳理

骨干網絡

U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation Unet的優化

Code:https://github.com/CUHK-AIM-Group/U-KAN
U-Net 已成為圖像分割和擴散概率模型等各種視覺應用的基石。雖然通過結合 transformer 或 MLP 引入了許多創新設計和改進,但網絡仍然局限于線性建模模式以及不足的可解釋性。為了應對這些挑戰,我們的直覺受到了 Kolmogorov-Arnold 網絡 (KAN) 在準確性和可解釋性方面令人印象深刻的結果的啟發,這些結果通過從 Kolmogorov-Anold 表示定理推導出的非線性可學習激活函數堆棧重塑了神經網絡學習。具體來說,在本文中,我們探討了 KANs 在改善視覺任務支柱方面尚未開發的潛力。我們通過在標記化的中間表示(稱為 U-KAN)上集成專用的 KAN 層來研究、修改和重新設計已建立的 U-Net 管道。嚴格的醫學圖像分割基準測試驗證了 UKAN 的優越性,即使計算成本更低,準確性也更高。我們進一步深入研究了 U-KAN 作為擴散模型中替代 U-Net 噪聲預測器的潛力,證明了它在生成面向任務的模型架構方面的適用性。

分類

半監督分類

Towards Realistic Semi-supervised Medical Image Classification

現有的半監督學習 (SSL) 方法遵循理想化的封閉世界假設,忽略了現實醫療場景中存在的挑戰,例如開放集分布和不平衡的類分布。盡管自然領域的一些方法試圖解決開放集問題,但它們對于醫學領域來說是不夠的,因為醫學領域存在諸如類不平衡和類間小病變差異等交織在一起的挑戰。因此,本文提出了一種新的自我重新校準的語義訓練框架,該框架通過巧妙地收集真實的未標記樣本,為醫學成像中的 SSL 量身定制。受到某些開放集樣本與分布樣本共享一些相似的疾病相關表征的觀察結果的啟發,我們首先提出了一種信息豐富的樣本選擇策略,該策略識別高價值樣本作為增強,從而有效地豐富了已知類別的語義。此外,我們采用緊湊的語義聚類策略來解決上述新引入的 open-set 語義帶來的語義混淆。此外,為了減輕開放集 SSL 中類不平衡的干擾,我們引入了一種具有相似性偽標簽正則化和類別自定義正則化的偏差較小的雙平衡分類器。對各種醫學圖像數據集的廣泛實驗表明,我們提出的方法優于最先進的封閉集和開放集 SSL 方法。

few-shot 分類

Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP

Code:https://github.com/lyymuwu/TIMO
對比語言-圖像預訓練 (CLIP) 已廣泛用于視覺任務。值得注意的是,CLIP 在小樣本學習 (FSL) 中表現出了有希望的性能。然而,現有的基于 CLIP 的免訓練 FSL 方法(即不需要額外的訓練)主要獨立學習不同的模態,導致兩個基本問題:1) 圖像模態的嚴重異常匹配;2) 生成的文本提示質量參差不齊。為了解決這些問題,我們構建了一個相互指導機制,該機制引入了一個圖像引導文本 (IGT) 組件,用于通過圖像表示來糾正文本提示的不同質量,以及一個文本引導圖像 (TGI) 組件,以通過文本表示來緩解圖像模態的異常匹配。通過整合 IGT 和 TGI,我們采用文本-圖像互導優化的觀點,提出了 TIMO。廣泛的實驗表明,TIMO 的性能明顯優于最先進的 (SOTA) 免訓練方法。此外,通過探索相互指導的程度,我們提出了一種增強的變體 TIMO-S,它甚至超過了最佳培訓要求方法0.33%,時間成本減少了約 ×100。

MVREC: A General Few-shot Defect Classification Model Using Multi-View Region-Context

Code:https://github.com/ShuaiLYU/MVREC
少樣本多類別分類 (FSDMC) 是工業制造質量控制的新興趨勢。然而,當前的 FSDMC 研究由于專注于特定的數據集,往往缺乏普遍性。此外,缺陷分類嚴重依賴于圖像中的上下文信息,而現有方法無法有效地提取這些信息。為了應對這些挑戰,我們提出了一種稱為 MVREC 的通用 FSDMC 框架,它有兩個主要優勢:(1) MVREC 通過結合預先訓練的 AlphaCLIP 模型來提取缺陷實例的一般特征。(2) 它利用區域上下文框架,通過利用掩碼區域輸入和多視圖上下文增強來增強缺陷特征。此外,在模型中引入了 Few-shot Zip-Adapter(-F) 分類器來緩存支撐集的視覺特征并執行 Few-shot 分類。我們還推出了 MVTec-FS,這是一種基于 MVTec AD 的新 FSDMC 基準測試,其中包括 1228 個帶有實例級掩碼注釋的缺陷圖像和 46 種缺陷類型。在 MVTec-FS 和四個其他數據集上進行的廣泛實驗證明了它在一般缺陷分類中的有效性,以及它整合上下文信息以提高分類性能的能力。

分割

脈沖神經網絡用于分割

Spike2Former: Efficient Spiking Transformer for High-performance Image Segmentation

脈沖神經網絡(SNNs)具有低功耗優勢,但在圖像分割任務中表現不佳。原因是將為分割任務設計的具有復雜架構的神經網絡直接轉換為脈沖版本會導致性能下降和不收斂。為應對這一挑戰,我們首先確定架構設計中導致脈沖發放嚴重減少的模塊,進行有針對性的改進,并提出Spike2Former架構。其次,我們提出歸一化整數脈沖神經元,以解決具有復雜架構的SNNs的訓練穩定性問題。我們在各種語義分割數據集上為SNNs創造了新的最先進水平,在ADE20K上平均交并比(mIoU)顯著提高12.7%,效率提高5.0倍;在VOC2012上mIoU提高14.3%,效率提高5.2倍;在CityScapes上mIoU提高9.1%,效率提高6.6倍。

few-shot語義分割

??Enhancing Generalized Few-Shot Semantic Segmentation via Effective Knowledge Transfer,

Code:https://github.com/xinyue1chen/GFSS-EKT
廣義少數樣本語義分割 (GFSS) 旨在使用足夠的基類樣本和少量新類樣本來分割基類和新類的對象。代表性的 GFSS 方法通常采用兩階段訓練方案,包括基類預訓練,然后是新類微調,以分別學習基類和新類的分類器。然而,在此過程中,基類和新類之間存在分布差距。為了縮小這一差距,我們利用了從基礎類到新類的有效知識轉移。首先,設計了一種新的原型調制模塊,通過利用基類和新類之間的相關性來調制新的類原型。其次,提出了一種新型分類器標定模塊,根據基礎分類器的權重分布標定新型分類器的權重分布;此外,現有的 GFSS 方法由于樣本有限而缺乏新類的上下文信息,因此我們引入了一種上下文一致性學習方案,將上下文知識從基礎類轉移到新類。對 PASCAL-5i 和 COCO-20i 的廣泛實驗表明,我們的方法顯著增強了 GFSS 設置中的技術水平。

SAM類

AoP-SAM: Automation of Prompts for Efficient Segmentation

Segment Anything Model (SAM) 是一個強大的圖像分割基礎模型,通過提示工程展示了強大的零鏡頭泛化。但是,對于實際應用程序來說,依賴手動提示是不切實際的,尤其是在快速提示配置和資源效率至關重要的情況下。在本文中,我們提出了 SAM 提示自動化 (AoP-SAM),這是一種學習在最佳位置自動生成基本提示的新方法。AoP-SAM 通過消除手動輸入來提高 SAM 的效率和可用性,使其更適合實際任務。我們的方法采用輕量級但高效的 Prompt Predictor 模型,該模型可檢測圖像中的關鍵實體并確定放置提示候選人的最佳區域。此方法利用 SAM 的圖像嵌入,保留其零鏡頭泛化功能,而無需微調。此外,我們還引入了一種測試時實例級自適應采樣和過濾機制,該機制以粗到細的方式生成提示。這通過減少計算開銷和最大限度地減少冗余掩碼優化,顯著提高了提示和掩碼生成效率。對三個數據集的評估表明,AoP-SAM 顯著提高了提示生成效率和掩碼生成精度,使 SAM 在自動分割任務中更加有效。

Boosting Segment Anything Model Towards Open-Vocabulary Learning 開放詞匯

最近的 Segment Anything Model (SAM) 已成為一種新的范式視覺基礎模型,展示了有效的零樣本泛化和靈活的提示。盡管 SAM 在各個領域找到了應用和適應,但其主要局限性在于無法掌握對象語義。在本文中,我們介紹了 Sambor,以將 SAM 與端到端框架中的開放詞匯表對象檢測器無縫集成。在保留 SAM 固有的所有卓越功能的同時,我們對其進行了改進,使其能夠從人類輸入(如類別名稱或參考表達式)中檢測任意對象。在 SAM 圖像編碼器的基礎上,我們引入了一種新穎的 SideFormer 模塊,旨在獲取擅長感知對象的 SAM 特征,并注入全面的語義信息以進行識別。此外,我們還設計了一個 Open-set RPN,它利用 SAM 提案來幫助查找潛在對象。因此,Sambor 使開放詞匯檢測器能夠同樣專注于泛化定位和分類子任務。我們的方法在包括 COCO 和 LVIS 在內的基準測試中展示了卓越的零噴射性能,與以前的最先進方法相比具有很強的競爭力。我們希望這項工作成為一項有意義的努力,使 SAM 能夠識別不同的對象類別,并在 Vision Foundation 模型的支持下推進開放詞匯學習。

SAM-Aware Graph Prompt Reasoning Network for Cross-Domain Few-Shot Segmentation 跨域few-shot分割

Code:https://github.com/CVL-hub/GPRN
跨域小樣本分割 (CD-FSS) 的主要挑戰是訓練階段和推理階段之間的域差異,這可能存在于輸入數據或目標類別中。以前的模型很難從有限的訓練域樣本中學習泛化到各種未知域的特征表示。相比之下,大規模視覺模型 SAM 在來自不同領域和類別的數千萬張圖像上進行了預訓練,具有出色的泛化性。在這項工作中,我們提出了一種 SAM 感知的圖提示推理網絡 (GPRN),它充分利用 SAM 來指導 CD-FSS 特征表示學習并提高預測準確性。具體來說,我們提出了一個 SAM 感知提示初始化模塊 (SPI),將 SAM 生成的掩碼轉換為富含高級語義信息的視覺提示。由于 SAM 傾向于將一個對象劃分為許多子區域,這可能會導致視覺提示表示具有不一致或碎片化特征的同一語義對象。我們進一步提出了一個圖提示推理 (GPR) 模塊,該模塊在視覺提示之間構建一個圖,以推理它們的相互關系,并使每個視覺提示能夠聚合來自相似提示的信息,從而實現全局語義一致性。隨后,每個視覺提示將其語義信息嵌入到相應的掩碼區域中,以輔助特征表示學習。為了在測試過程中優化分割掩碼,我們還設計了一個非參數自適應點選擇模塊 (APS),從查詢預測中選擇有代表性的點提示,并將其反饋給 SAM 以優化不準確的分割結果。在四個標準 CD-FSS 數據集上的實驗表明,我們的方法建立了新的最先進的結果。

半監督分割

ScaleMatch: Multi-scale Consistency Enhancement for Semi-supervised Semantic Segmentation 語義分割

Code:https://github.com/lvliang6879/ScaleMatch
半監督學習通過利用未標記的數據來提高語義分割性能,從而顯著降低標記成本。以前的半監督語義分割 (S4) 方法探索了圖像級別的擾動,但忽略了充分利用多尺度信息。當標記信息不足時,不同對象之間的縮放變化會使具有極端縮放的學習實例變得更加困難。為了解決這個問題,我們提出了ScaleMatch,它旨在通過獲得混合的雙尺度偽標簽和尺度一致性學習來學習尺度不變特征。具體來說,跨尺度交互融合 (CIF) 模塊在不同的縮放視圖中強制執行交互式信息,從而實現更可靠的偽標簽生成。更重要的是,ScaleMatch 引入了可變刻度分支來利用刻度不變監督。它由圖像級尺度變化一致性 (ISVC) 和特征級尺度變化一致性 (FSVC) 組成。因此,我們的 ScaleMatch 增強了模型在尺度變化下的泛化,在各種分區協議下,在 Pascal VOC 和 Cityscapes 數據集上的性能優于現有的最先進方法。

無監督分割

Integrating Low-Level Visual Cues for Enhanced Unsupervised Semantic Segmentation

無監督語義分割算法旨在識別沒有注釋的有意義的語義組。最近的方法利用自監督轉換器作為預訓練骨干,成功地獲得了有效表達語義連貫性的高級密集特征。但是,這些方法通常會忽略局部語義一致性和低級特征,例如顏色和紋理。我們建議集成低級視覺提示,以補充來自自我監督的預訓練分支的高級視覺提示。我們的研究結果表明,低級視覺線索提供了對顏色紋理方面的更連貫的識別,確保了類內空間結構的連續性。這一見解促使我們開發了 IL2Vseg,這是一種無監督語義分割方法,它利用了低級視覺線索的補充。IL2Vseg 的核心是基于顏色親和力的空間約束模糊聚類算法,它在低級視覺線索中保留了空間相鄰和顏色相似的像素的類內親和力。此外,為了有效地耦合低級和高級視覺提示,我們引入了特征相似性損失函數來優化融合視覺提示的特征表示。為了進一步增強一致的特征學習,我們加入了基于顏色不變性和亮度不變性的對比度損失函數,這改善了對不同語義類別特征的學習。對多個數據集(包括 COCO-Stuff-27、Cityscapes、Potsdam 和 MaSTr1325)的廣泛實驗表明,IL2Vseg 取得了最先進的結果。

基于CLIP免訓練

[Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation](揭示 CLIP 的知識,用于免訓練的開放詞匯語義分割)

免訓練開放詞匯語義分割旨在探索凍結視覺語言模型 (VLM) 在分割任務中的潛力。最近的工作改革了 CLIP 的推理過程,并利用最后一層的特征來重建用于分割的密集表示,展示了有希望的性能。然而,最后一層往往優先考慮全局分量而不是局部表示,導致現有方法的穩健性和有效性欠佳。在本文中,我們提出了 CLIPSeg,這是一種新穎的免訓練框架,它充分利用了 CLIP 中跨層的不同知識進行密集預測。我們的研究揭示了兩個關鍵發現:首先,與最后一層相比,中間層的特征表現出較高的位置意識和特征連貫性,在此基礎上,我們提出了產生語義感知注意力的連貫性增強殘差注意力模塊。其次,盡管沒有直接與文本對齊,但深層捕獲了有效的局部語義,以補充最后一層中的語義。利用這一洞察,我們引入了深度語義集成模塊,以提升最終塊中的補丁語義。使用各種 CLIP 模型在 9 個分割基準上進行的實驗表明,CLIPSeg 始終以顯著優勢優于所有無訓練方法,例如,具有 ViT-L 主干的 CLIP 的平均 mIoU 提高了 7.8%,并且在以有效的方式推廣到新概念方面與基于學習的同行競爭。

域廣義分割(利用源域數據來增強語義分割在未知目標域中的泛化)

Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation

域廣義語義分割 (DGSS) 旨在專門利用源域數據來增強語義分割在未知目標域中的泛化。流行的研究主要集中在特征歸一化和域隨機化上,這些方法表現出明顯的局限性。基于特征歸一化的方法在約束特征空間分布的過程中容易混淆語義特征,導致分類誤判。由于樣式轉換的不可控性,基于域隨機化的方法經常包含域無關的噪聲,從而導致分割歧義。為了應對這些挑戰,我們引入了一個名為 SCSD 的新框架,用于語義一致性預測和風格多樣性泛化。它包括三個關鍵組件:首先,Semantic Query Booster 旨在增強掩碼解碼器中對象查詢的語義感知和區分能力,從而實現跨域語義一致性預測。其次,我們開發了一個 Text-Driven Style Transform 模塊,該模塊利用域差異文本嵌入來可控地引導圖像特征的樣式轉換,從而增加域間風格的多樣性。最后,為了防止相似域特征空間的崩潰,我們引入了一種風格協同優化機制,通過協同加權風格對比損失和風格聚合損失來加強域間特征的分離和域內特征的聚合。大量實驗表明,所提出的 SCSD 明顯優于現有的 state-of-theart 方法。值得注意的是,在 GTAV 上訓練的 SCSD 在四個看不見的域數據集上平均實現了 49.11 mIoU,比最先進的方法高出 +4.08 mIoU。

基于參考輸入進行分割(In-context segmentation)

Explore In-Context Segmentation via Latent Diffusion Models 基于參考圖像分割目標

Code:https://wang-chaoyang.github.io/project/refldmseg
隨著 Vision Foundation 模型的出現,上下文分割引起了越來越多的關注。其目標是使用給定的參考圖像對對象進行分割。大多數現有方法采用度量學習或掩碼圖像建模來構建視覺提示和輸入圖像查詢之間的關聯。這項工作從一個全新的角度解決了這個問題——解鎖了潛在擴散模型 (LDM) 用于上下文分割的能力,并研究了不同的設計選擇。具體來說,我們從三個角度來研究這個問題:指令提取、輸出對齊和元架構。我們設計了一個兩階段屏蔽策略,以防止干擾信息泄漏到指令中。此外,我們提出了一個增強的偽掩碼目標,以確保模型在不忘記原始圖像的情況下進行預測。此外,我們還構建了一個涵蓋圖像和視頻數據集的新的、公平的上下文細分基準。實驗驗證了我們方法的有效性,證明了與以前的專業或視覺基礎模型相當甚至更強的結果。我們希望我們的工作能激勵其他人重新思考細分和生成的統一。

IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis 基于文本描述對圖像中的目標進行分割

Code:https://github.com/VoyageWang/IteRPrimE
零鏡頭引用圖像分割(RIS)無需訓練和微調即可識別與指定引用表達式最佳對齊的實例掩碼,大大減少了勞動密集型注釋過程。盡管取得了值得稱贊的結果,但以前基于CLIP的模型有一個關鍵缺點:模型識別對象相對空間關系的能力顯著降低。這是因為它們在圖像上生成所有可能的掩碼,并評估每個掩碼區域與給定表達式的相似性,這通常會導致對文本輸入中直接位置線索的敏感性降低。此外,大多數方法管理主詞及其上下文之間關系的能力較弱,導致識別正確目標區域的混淆和準確性降低。為了應對這些挑戰,我們提出了IteRPrimE(Iterative Grad-CAM細化和初級詞強調),它利用來自視覺語言預訓練(VLP)模型的Grad-CAM的顯著性熱圖進行圖像-文本匹配。引入了迭代Grad-CAM精化策略,以逐步增強模型對目標區域的關注并克服位置不敏感,從而產生自我糾正效果。此外,我們設計了初級詞強調模塊來幫助模型處理復雜的語義關系,增強其處理預期對象的能力。在RefCOCO/+/g和PhraseCut基準上進行的廣泛實驗表明,IteRPrimE優于以前的SOTA零射擊方法,特別是在域外場景中表現出色。

小目標

S3-Mamba: Small-Size-Sensitive Mamba for Lesion Segmentation 針對醫學領域的小目標

小病灶在嚴重感染的早期疾病診斷和干預中起著關鍵作用。流行的模型在分割小病灶時經常面臨挑戰,因為它只占據圖像的一小部分,而下采樣作可能不可避免地失去對小病灶局部特征的關注。為了應對這些挑戰,我們提出了一種小尺寸敏感曼巴 (S3-Mamba),它在通道、空間和訓練策略三個維度上促進了對小病變的敏感性。具體來說,增強的視覺狀態空間塊旨在通過多個殘余連接關注小病變以保留局部特征,并選擇性地放大重要細節,同時通過通道注意抑制不相關的細節。基于張量的跨特征多尺度注意力 (Cross-feature Multi-scale Attention) 旨在將輸入圖像特征和中間層特征與邊緣特征集成在一起,并利用跨多個尺度對特征的用心支持,從而保留各種粒度的小病灶的空間細節。最后,我們引入了一種新的正則化課程學習,以自動評估病灶大小和樣本難度,并逐漸從簡單的樣本關注到像小病灶這樣的困難樣本。對三個醫學圖像分割數據集的廣泛實驗表明,我們的 S3-Mamba 具有優越性,尤其是在分割小病灶方面。

其他分割

HSRDiff: A Hierarchical Self-Regulation Diffusion Model for Stochastic Semantic Segmentation

在醫療診斷和自動駕駛等安全關鍵領域,單張圖像證據有時不足以反映視覺問題固有的模糊性。因此,可能需要多個與圖像語義匹配的合理假設,以反映目標的實際分布并支持下游任務。然而,在高維輸出空間和潛在的多模態分布下,平衡和提高分割預測的多樣性和一致性仍然具有挑戰性。本文提出了分層自調節擴散(HSRDiff),這是一個統一的框架,用于模擬整個標簽上的聯合概率分布。我們的模型在一種新穎的 “從分化到統一” 流程中,自調節預測標簽和噪聲這兩種模式之間的平衡,并動態擬合最優路徑,以對源于觀測的隨機不確定性進行建模。此外,我們通過利用分層多尺度條件先驗,保留了圖像中精細結構的高保真重建。我們在三種不同的語義場景中對HSRDiff進行了驗證。實驗結果表明,HSRDiff與對比方法相比具有顯著的性能差距,表現更優。

Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation解決訓練與測試時的域偏移問題

Code:https://github.com/Chen-Ziyang/GraTa
盡管近年來醫學圖像分割取得了重大進展,但來自不同中心的醫學圖像之間普遍存在的域偏移問題阻礙了預訓練模型的有效部署。已經提出了許多測試時適應 (TTA) 方法來解決這個問題,方法是在推理過程中使用測試數據微調預訓練模型。然而,由于次優的優化方向(由梯度決定)和固定的步長(取決于學習率),這些方法的優化往往不太令人滿意。在本文中,我們提出了基于梯度對齊的測試時適應 (GraTa) 方法,以提高優化過程中的梯度方向和學習率。與傳統的 TTA 方法不同,傳統的 TTA 方法主要優化從自監督目標得出的偽梯度,我們的方法將輔助梯度與偽梯度相結合,以促進梯度對齊。這種梯度對齊使模型能夠挖掘不同梯度之間的相似性,并校正梯度方向以近似于與當前分割任務相關的經驗梯度。此外,我們根據偽梯度和輔助梯度之間的余弦相似性設計了一個動態學習率,從而能夠根據不同的測試數據對預訓練模型進行自適應微調。廣泛的實驗確立了所提出的梯度對齊和動態學習率的有效性,并證實了我們的 GraTa 方法在基準醫學圖像分割任務中優于其他最先進的 TTA 方法。

??ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement 醫學領域低對比度

Code:https://github.com/Mengqi-Lei/ConDSeg
醫學圖像分割在臨床決策、治療計劃和疾病跟蹤中發揮著重要作用。然而,它仍然面臨兩大挑戰。一方面,醫學圖像中的前景和背景之間通常存在“軟邊界”,照明不佳和對比度低進一步降低了圖像中前景和背景的可區分性。另一方面,共現現象在醫學圖像中很普遍,了解這些特征會誤導模型的判斷。為了應對這些挑戰,我們提出了一個稱為對比驅動醫學圖像分割 (ConDSeg) 的通用框架。首先,我們開發了一種稱為一致性強化的對比訓練策略。它旨在提高編碼器在各種照明和對比度場景中的穩健性,使模型即使在惡劣環境中也能提取高質量的特征。其次,我們引入了一個語義信息解耦模塊,它能夠將編碼器中的特征解耦到前景、背景和不確定性區域,逐漸獲得在訓練過程中減少不確定性的能力。然后,Contrast-Driven Feature Aggregation 模塊將前景和背景特征進行對比,以指導多級特征融合和關鍵特征增強,進一步區分需要分割的實體。我們還提出了一個 Size-Aware Decoder 來解決解碼器的尺度奇點。它可以準確地定位圖像中不同大小的實體,從而避免對共現特征的錯誤學習。在三個場景中對五個數據集進行的廣泛實驗證明了我們方法最先進的性能,證明了其先進性和對各種醫學圖像分割場景的普遍適用性。

Rethinking U-Net: Task-Adaptive Mixture of Skip Connections for Enhanced Medical Image Segmentation

Code:https://github.com/AshleyLuo001/UTANet
U-Net 是一種廣泛使用的醫學圖像分割模型,以其強大的特征提取能力和 U 形設計而聞名,該設計結合了跳過連接以保留關鍵信息。但是,它的解碼器對 skip 連接提供的補充內容表現出特定于信息的偏好,而不是遵守嚴格的一一對應,這限制了它在不同任務中的靈活性。為了解決這一限制,我們提出了任務自適應跳躍連接混合 (TA-MoSC) 模塊,其靈感來自專家混合 (MoE) 框架。TA-MoSC 創新性地將 Skip 連接重新解釋為任務分配問題,采用路由機制在不同的解碼階段自適應地選擇 expert 組合。通過引入 MoE,我們的方法增強了模型的稀疏性,并在所有跳過連接階段共享輕量級卷積專家,平衡專家利用 (BEU) 策略確保所有專家都得到有效培訓,保持訓練平衡并保持計算效率。我們的方法對原始 U-Net 引入了最少的額外參數,但顯著提高了其性能和穩定性。在 GlaS、MoNuSeg、Synapse 和 ISIC16 數據集上的實驗表明,在不同任務中具有最先進的準確性和更好的泛化能力。此外,雖然這項工作的重點是醫學圖像分割,但所提出的方法可以無縫擴展到其他分割任務,為不同的應用提供靈活高效的解決方案。

S2S2: Semantic Stacking for Robust Semantic Segmentation in Medical Imaging 改善訓練與推理數據差異帶來的影響

Code:https://github.com/ymp5078/Semantic-Stacking
醫學圖像分割的穩健性和泛化性通常受到訓練數據的稀缺性和有限多樣性的阻礙,這與推理過程中遇到的可變性形成鮮明對比。雖然傳統策略—例如特定領域的增強、專門的架構和定制的訓練程序—可以緩解這些問題,但它們取決于領域知識的可用性和可靠性。當此類知識不可用、具有誤導性或應用不當時,性能可能會下降。作為回應,我們引入了一種新穎的、與域無關的、附加組件和數據驅動的策略,其靈感來自圖像去噪中的圖像堆疊。我們的方法被稱為 “語義堆疊”,估計了一種去噪的語義表示,它補充了訓練過程中的傳統分割損失。這種方法不依賴于特定領域的假設,使其廣泛適用于不同的圖像模態、模型架構和增強技術。通過廣泛的實驗,我們驗證了我們的方法在各種條件下提高分割性能方面的優越性。

A Unified Loss for Handling Inter-Class and Intra-Class Imbalance in Medical Image Segmentation 類內和類間損失不平衡問題

在利用深度學習技術進行醫學圖像分割時,觀察到兩種類型的不平衡問題:多數類和少數類之間的類間不平衡以及容易樣本和硬樣本之間的類內不平衡。然而,現有的損失函數通常會混淆這些問題,導致僅滿足一個方面的增強。此外,針對特定任務優化的損失函數通常表現出有限的泛化性。為了解決這些問題,我們提出了類間和類內平衡損失,以及稱為平衡損失的統一損失。類間平衡損失通過考慮每個輸入圖像中存在的少數類的頻率來控制多數類樣本的硬樣本挖掘程度。這種方法不需要手動調整權重,并自動適應不同的數據集。類內平衡損失通過對每個類內的硬樣本執行挖掘來增強網絡從硬樣本中學習的能力。我們在五個具有不同程度類不平衡的分割任務上評估我們的損失函數。實驗結果表明,與當前的損失函數相比,我們提出的Balance損失增強了分割性能,并表現出卓越的魯棒性。

優質數據選擇

A Training-free Synthetic Data Selection Method for Semantic Segmentation 從生成樣本中選擇優質樣本

Code暫未發布:https://github.com/tanghao2000/SDS
使用合成數據訓練語義分割器因其易于訪問和數量龐大而引起了極大的關注。以前的大多數方法都側重于生成大規模合成圖像注釋樣本,然后使用所有這些樣本訓練分割器。然而,這樣的解決方案仍然是一個主要挑戰,因為劣質樣本是不可避免的,使用它們來訓練模型會損害訓練過程。在本文中,我們提出了一種使用 CLIP 的免訓練合成數據選擇 (SDS) 策略,以選擇高質量的樣本來構建可靠的合成數據集。具體來說,給定大量的合成圖像注釋對,我們首先設計了一個基于擾動的 CLIP 相似性 (PCS) 來測量合成圖像的可靠性,從而去除具有低質量圖像的樣本。然后,我們通過將合成注釋與 CLIP 的響應進行比較,提出一種類平衡注釋相似性過濾器 (ASF),以去除與低質量注釋相關的樣本。實驗結果表明,使用我們的方法將數據量顯著減少了一半,而經過訓練的分割器實現了更高的性能。

目標檢測

脈沖神經網絡用于提升目標檢測

SpikingYOLOX: Improved YOLOX Object Detection with Fast Fourier Convolution and Spiking Neural Networks

近年來,隨著腦科學的進步,脈沖神經網絡(SNNs)受到了廣泛關注。SNNs可以產生脈沖,模擬人類大腦中神經元的傳輸功能,從而在訓練過程中通過事件驅動的特性顯著降低計算成本。雖然深度SNNs在分類任務中表現出色,但在諸如目標檢測等更復雜的任務中仍面臨挑戰。在本文中,我們提出了SpikingYOLOX,通過引入帶符號的脈沖神經元和快速傅里葉卷積(FFC)對原始YOLOX的結構進行了擴展。所設計的三值帶符號脈沖神經元可以產生三種脈沖,以在主干網絡的深層獲得更強健的特征。同時,我們將FFC與SNN模塊相結合以提升目標檢測性能,因為其全局感受野有利于目標檢測任務。大量實驗表明,所提出的SpikingYOLOX在其他基于SNN的目標檢測方法中取得了最先進的性能。

長尾分布檢測

Long-Tailed Out-of-Distribution Detection: Prioritizing Attention to Tail

Code:https://github.com/InaR-design/PATT
當前的分布外 (OOD) 檢測方法通常假設平衡的分布內 (ID) 數據,而大多數實際數據都遵循長尾分布。以前的長尾 OOD 檢測方法通常涉及通過減少頭類的語義來平衡 ID 數據。但是,這種減少可能會嚴重影響 ID 數據的分類準確性。此任務的主要挑戰在于嚴重缺乏 tail 類的特征,從而導致與 OOD 數據混淆。為了解決這個問題,我們引入了一種新的 Prioritizing Attention to Tail (PATT) 方法,使用增強而不是減少。我們的主要直覺包括使用 von Mises-Fisher (vMF) 分布的混合來對 ID 數據進行建模,并使用溫度縮放模塊來提高 ID 數據的置信度。這使我們能夠生成無限的對比對,隱式增強 ID 類的語義,同時促進 ID 和 OOD 數據之間的差異。為了在不影響 ID 數據的分類性能的情況下進一步加強對 OOD 數據的檢測,我們建議在推理階段進行特征校準。通過從訓練集中提取注意力權重,確定尾部類別的優先級并降低對 OOD 數據的置信度,我們提高了 OOD 檢測能力。廣泛的實驗驗證了我們的方法在各種基準上優于當前最先進的方法。

未知目標檢測

UN-DETR: Promoting Objectness Learning via Joint Supervision for Unknown Object Detection

Code:https://github.com/ndwxhmzz/UN-DETR
未知對象檢測 (UOD) 旨在識別不可見類別的對象,這與受封閉世界假設限制的傳統檢測范式不同。UOD 的一個關鍵組成部分是學習廣義表示,即已知和未知類別的對象性,以與類無關的方式從背景中區分和定位對象。然而,以前的方法從定位或分類信息中分離地獲得學習對象性的監督信號,導致 UOD 的性能不佳。為了解決這個問題,我們提出了一個基于 transformer 的 UOD 框架 UN-DETR。基于此,我們制作了實例存在分數 (IPS) 來表示對象存在的概率。為了實現信息互補性,IPS 采用了聯合監督學習的策略,將來自位置和分類潛在空間的代表一般對象性的屬性整合為監督信號。為了加強 IPS 學習,我們引入了一對多作業策略以納入更多監督。然后,我們提出了 Unbiased Query Selection,為解碼器提供高級初始查詢向量。此外,我們提出了一種 IPS 引導的后處理策略來過濾冗余框并糾正已知和未知對象的分類預測。最后,我們以無監督的方式對整個 UN-DETR 進行預訓練,以便先驗獲得客觀性。我們的 UN-DETR 根據多個 UOD 和已知的檢測基準進行了全面評估,證明了其有效性并實現了最先進的性能。

開放詞匯目標檢測

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community 遙感領域實現開放詞匯目標檢測,是否可借鑒實現工業領域的?💥

目標檢測,尤其是開放詞匯目標檢測,在地球科學中起著至關重要的作用,例如環境監測、自然災害評估和土地利用規劃。然而,由于存在巨大的數據域差距,現有的開放詞匯檢測器主要在自然世界圖像上進行訓練,難以推廣到遙感圖像。因此,本文旨在推動遙感社區開放詞匯目標檢測的發展。為了實現這一目標,我們首先將任務重新表述為定位地球上的任何事物 (LAE),目標是檢測地球上的任何新概念。然后,我們開發了 LAE-Label Engine,它可以收集、自動標注和統一多達 10 個遙感數據集,從而創建了 LAE-1M——第一個具有廣泛類別覆蓋范圍的大規模遙感對象檢測數據集。使用 LAE-1M,我們進一步提出并訓練了新穎的 LAE-DINO 模型,這是第一個用于 LAE 任務的開放詞匯基礎對象檢測器,具有動態詞匯構建 (DVC) 和視覺引導文本提示學習 (VisGT) 模塊。DVC 為每個訓練批次動態構建詞匯表,而 VisGT 將視覺特征映射到語義空間,從而增強文本特征。我們對已建立的遙感基準 DIOR、DOTAv2.0 以及我們新推出的 80 級 LAE-80C 基準進行了全面的實驗。結果證明了 LAE-1M 數據集的優勢和 LAE-DINO 方法的有效性。

OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision

Code:https://github.com/xiaomoguhz/OV-DQUO
開放詞匯表檢測旨在檢測來自新類別的對象,超出了檢測器所訓練的基本類別。然而,現有的基于基本類別數據訓練的開放詞匯表檢測器傾向于為訓練的類別分配更高的置信度,并將新類別與背景混淆。為了解決這個問題,我們提出了OV-DQUO,這是一種開放詞匯表DETR,具有去噪文本查詢訓練和開放世界未知對象監督。具體來說,我們引入了一種通配符匹配方法。該方法使檢測器能夠從開放世界檢測器識別的未知對象對和具有一般語義學的文本嵌入中學習,減輕了基礎和新穎類別之間的置信度偏差。此外,我們提出了一種去噪文本查詢訓練策略。它從開放世界未知對象中合成前景和背景查詢框對,通過對比學習來訓練檢測器,增強其區分新對象和背景的能力。我們對OV-COCO和OV-LVIS基準進行了廣泛的實驗,分別在新類別上獲得了45.6 AP50和39.3 mAP的最新結果。

小目標

RemDet: Rethinking Efficient Model Design for UAV Object Detection 無人機-高效的小目標檢測

無人機 (UAV) 圖像中的對象檢測已成為一個重點研究領域,這帶來了兩個重大挑戰:i) 對象在大量圖像中通常很小且很密集;ii) 計算資源限制使大多數模型不適合實時部署。當前的實時目標檢測器并未針對 UAV 圖像進行優化,并且為小目標檢測設計的復雜方法通常缺乏實時功能。為了應對這些挑戰,我們提出了一種新型檢測器 RemDet (Reparameter efficient multiplication Detector)。我們的貢獻如下:1) 重新思考現有探測器對小型和密集無人機圖像的挑戰,并提出信息損失作為高效模型的設計指南。2) 我們引入了 ChannelC2f 模塊來增強小目標檢測性能,證明了高維表示可以有效減輕信息損失。3) 我們設計的 GatedFFN 模塊不僅提供強大的性能,而且提供低延遲,有效解決實時檢測的挑戰。我們的研究表明,通過使用乘法,GatedFFN 在高維表示方面比前饋網絡更具成本效益。4) 我們提出了 CED 模塊,它結合了 ViT 和 CNN 下采樣的優勢,有效減少了信息損失。它專門增強了小型和密集對象的上下文信息。對大型無人機數據集 Visdrone 和 UAVDT 的廣泛實驗驗證了我們方法的實時效率和卓越性能。在具有挑戰性的無人機數據集 VisDrone 上,我們的方法不僅提供了最先進的結果,將檢測提高了 3.4% 以上,而且還在單個 4090 上實現了 110 FPS。

FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection 無人機-高效、準確的小目標檢測

Code:https://github.com/galaxy-oss/FCM
具有視覺能力的嵌入式飛行設備對于廣泛的應用已經變得必不可少。在航空圖像檢測中,雖然許多現有方法已經部分解決了小目標檢測問題,但在優化小目標檢測和平衡檢測精度與效率方面仍然存在挑戰。這些問題是實時航空圖像進步的關鍵障礙detection.In本文,我們提出了一個新的航空圖像檢測實時檢測器家族,命名為FBRT-活在當下,以解決檢測精度和效率之間的不平衡問題。我們的方法包括兩個輕量級模塊:特征互補映射模塊(FCM)和多核感知單元(MKP),旨在增強航空圖像中小目標的目標感知。FCM專注于緩解深度網絡中小目標信息丟失帶來的信息不平衡問題。它旨在將目標的空間位置信息更深入地整合到網絡中,更好地與更深層的語義信息對齊,以提高小目標的定位。我們引入了MKP,它利用不同大小核的卷積來增強不同尺度目標之間的關系,改善不同尺度目標的感知。在包括Visdrone、UAVDT和AI-TOD在內的三個主要航空圖像數據集上的廣泛實驗結果表明,FBRT-活在當下的性能和速度方面優于各種實時探測器。

增量目標檢測(增量學習)

增量目標檢測(IOD) 是一類挑戰性任務,要求目標檢測模型能夠從連續到達的新數據中持續學習,即在依次學習多個增量任務(每個任務引入新類別)后,模型不僅能檢測新類別,還能保持對舊類別的檢測能力,避免 “災難性遺忘”。

GCD: Advancing Vision-Language Models for Incremental Object Detection via Global Alignment and Correspondence Distillation

Code:https://github.com/Never-wx/GCD
增量目標檢測(IOD)是一項具有挑戰性的任務,需要檢測模型不斷從新到達的數據中學習。這項工作側重于視覺語言檢測器(VLD)的增量學習,這是一個探索不足的領域。現有研究通常采用局部對齊范式來避免標簽沖突,其中不同的任務在沒有交互的情況下單獨學習。然而,我們揭示了這種做法未能有效地保留語義結構。具體來說,對象和文本之間的對齊關系在處理新穎類別時會崩潰,最終導致災難性的遺忘。盡管知識蒸餾(KD)是解決這一問題的常用方法,但傳統KD在直接應用于VLD時表現不佳,至于不同階段,編碼和解碼過程中都存在自然的知識差距。為了解決上述問題,我們提出了一種稱為全局對齊和對應蒸餾(GCD)的新方法。不同的是,我們首先在同一嵌入空間內跨階段整合知識以構建全局語義結構。然后,我們通過語義對應機制在VLD中實現有效的知識蒸餾,確保一致的提案生成和解碼。在此基礎上,我們提取教師模型的信息預測和拓撲關系,以保持穩定的局部語義結構。COCO 2017上的大量實驗表明,我們的方法顯著優于現有方法,在各種IOD場景中實現了新的最先進技術。

異常檢測Anomaly Detection

Filter or Compensate: Towards Invariant Representation from Distribution Shift for Anomaly Detection針對分布外數據優化

Code:https://github.com/znchen666/FiCo
最近的異常檢測 (AD) 方法在分布內 (ID) 數據方面取得了巨大成功。然而,真實世界的數據經常表現出分布偏移,導致傳統 AD 方法的性能大幅下降。從這個角度來看,以往很少有工作探索具有分布偏移的 AD,并且基于逆蒸餾 (RD) 框架提出了分布不變正態學習。然而,我們觀察到教師和學生網絡之間的錯位問題導致檢測失敗,因此提出了 FiCo、Filter 或 Compensate 來解決 AD 中的分布偏移問題。FiCo 首先通過分布特定補償 (DiSCo) 模塊補償分布特定信息以減少教師和學生網絡之間的錯位,其次過濾所有異常信息以捕獲分布不變正態性。分布不變濾波器 (DiIFi) 模塊。對三種不同 AD 基準的廣泛實驗證明了 FiCo 的有效性,它優于所有現有的最先進的 (SOTA) 方法,與基于 RD 的方法相比,它甚至在 ID 場景中取得了更好的結果。

LogicAD: Explainable Anomaly Detection via VLM-based Text Feature Extraction

Code,暫未發布
邏輯圖像理解涉及解釋和推理圖像視覺內容中的關系和一致性。此功能在工業檢查等應用中至關重要,在這些應用中,邏輯異常檢測對于保持高質量標準和最大限度地減少代價高昂的召回至關重要。以前的異常檢測 (AD) 研究依賴于先驗知識來設計算法,這通常需要大量的手動注釋、強大的計算能力和大量數據進行訓練。自回歸、多模態視覺語言模型 (AVLM) 提供了一種很有前途的替代方案,因為它們在各個領域的視覺推理方面表現出色。盡管如此,它們在邏輯 AD 中的應用仍未得到探索。在這項工作中,我們研究了將 AVLM 用于邏輯 AD,并證明它們非常適合該任務。將 AVLM 與格式嵌入和邏輯推理器相結合,我們在公共基準測試 MVTec LOCO AD 上實現了 SOTA 性能,AUROC 為 86.0%,F1-max 為 83.7%,并對異常進行了解釋。這明顯優于現有的 SOTA 方法,在 AUROC 中提高了 18.1%,在 F1-max 分數中提高了 4.6%。

Unlocking the Potential of Reverse Distillation for Anomaly Detection

Code:https://github.com/hito2448/URD
知識蒸餾 (KD) 是一種很有前途的無監督異常檢測 (AD) 方法。然而,學生網絡的過度泛化通常會減少異常區域中教師和學生之間的關鍵表征差異,從而導致檢測失敗。為了解決這個問題,被廣泛接受的逆蒸餾 (RD) 范式設計了不對稱的教師和學生網絡,使用編碼器作為教師,使用解碼器作為學生。然而,RD 的設計并不能確保教師編碼器有效區分正常特征和異常特征,也不能確保學生解碼器產生無異常特征。此外,缺少 skip 連接會導致特征重建過程中丟失精細細節。為了解決這些問題,我們提出了 RD with Expert,它引入了一種新的專家-教師-學生網絡,用于同時蒸餾教師編碼器和學生解碼器。增加的專家網絡增強了學生生成正常特征的能力,并優化了教師對正常和異常特征的區分,從而減少了漏檢。此外,Guided Information Injection 旨在過濾特征并將其從教師傳遞給學生,從而改進細節重建并最大限度地減少誤報。幾個基準的實驗證明,我們的方法在 RD 范式下優于現有的無監督 AD 方法,充分釋放了 RD 的潛力。

zero-shot AD

??Aligning and Prompting Anything for Zero-Shot Generalized Anomaly Detection

Code:https://github.com/majitao-xd/TPS
零樣本廣義異常檢測 (ZGAD) 在工業自動化和健康篩查中發揮著關鍵作用。最近的研究表明,基于 CLIP 等視覺語言模型 (VLM) 構建的 ZGAD 方法具有出色的跨域檢測性能。與其他計算機視覺任務不同,ZGAD 需要共同優化圖像級異常分類和像素級異常分割任務,分別用于判斷圖像是否包含異常和檢測圖像的異常部分,這導致了任務的粒度不同。但是,現有方法忽略了這個問題,使用一組用于描述整個圖像的寬文本提示來處理這兩個任務。這限制了 CLIP 將文本特征與像素級視覺特征對齊,并損害了異常分割性能。因此,為了實現精確的視覺文本對齊,本文提出了一種新的細粒度文本提示生成策略。然后,我們在分類和分割任務中分別應用寬文本提示和生成的細粒度文本提示進行視覺文本對齊,從而準確捕獲圖像中的正常和異常實例。我們還引入了文本提示分流 (TPS) 模型,該模型通過重構兩個任務之間的互補和依賴關系來進行聯合學習,以增強異常檢測性能。這使我們的方法能夠專注于異常目標的細粒度分割,同時確保準確的異常分類,并在 ZGAD 任務中首次實現像素級可理解的 CLIP。對 13 個真實世界異常檢測數據集的廣泛實驗表明,TPS 在工業和醫療領域的高度多樣化數據集中實現了卓越的 ZGAD 性能。

few-shot AD

Kernel-Aware Graph Prompt Learning for Few-Shot Anomaly Detection

Code:https://github.com/CVL-hub/KAG-prompt.git
Few-shot anomaly detection (FSAD) 旨在以來自同一類的極少數正常支持圖像為指導,檢測看不見的異常區域。現有的 FSAD 方法通常通過直接設計復雜的文本提示來發現異常,以使其與流行的大型視覺語言模型范式下的視覺特征保持一致。然而,這些方法幾乎總是忽視了視覺特征中的內在上下文信息,例如不同視覺層之間的交互關系,這是全面檢測異常的重要線索。為此,我們提出了一個內核感知的圖提示學習框架,稱為 KAG-prompt,通過對 FSAD 視覺特征之間的跨層關系進行推理。具體來說,通過將關注不同大小的異常區域的不同層特征作為節點來構建內核感知的分層圖,同時,任意節點對之間的關系代表圖的邊緣。通過此圖傳遞消息,KAG-prompt 可以捕獲跨層上下文信息,從而實現更準確的異常預測。此外,為了在預測圖中整合多個重要異常信號的信息,我們提出了一種基于多級信息融合的新型圖像級評分方法。對 MVTecAD 和 VisA 數據集的廣泛實驗表明,KAG-prompt 在圖像級/像素級異常檢測方面獲得了最先進的 FSAD 結果。

多類別AD(multi-class AD)

CNC: Cross-modal Normality Constraint for Unsupervised Multi-class Anomaly Detection

現有的基于無監督蒸餾的方法依賴于編碼和解碼特征之間的差異來定位測試圖像中的異常區域。然而,僅在正常樣本上訓練的解碼器仍然可以很好地重建異常補丁特征,從而降低性能。這個問題在無監督多類異常檢測任務中尤為明顯。我們將這種行為歸因于解碼器的“過度泛化”(OG):多類訓練中補丁模式的多樣性顯著增加增強了正常補丁上的模型泛化,但也無意中將其泛化擴大到異常補丁。為了減輕“OG”,我們提出了一種新方法,該方法利用與類無關的可學習提示來捕獲跨各種視覺模式的常見文本正常性,然后應用它們來引導解碼特征朝向“正常”文本表示,抑制解碼器對異常模式的“過度泛化”。為了進一步提高性能,我們還引入了門控混合專家模塊,專門處理不同的補丁模式,并在多類訓練中減少它們之間的相互干擾。我們的方法在MVTec AD和VisA數據集上實現了具有競爭力的性能,證明了其有效性。

視頻異常檢測

Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection

Code:https://github.com/guijiejie/DCMD-main
視頻異常檢測(VAD)對于計算機視覺和多媒體研究至關重要。現有的VAD方法利用基于reconstruction-based或預測的框架。前者擅長檢測不規則模式或結構,而后者能夠發現異常偏差或趨勢。我們解決基于姿勢的視頻異常檢測,并引入了一種稱為雙條件運動擴散(DCMD)的新框架,它享有這兩種方法的優勢。DCMD集成了條件運動和條件嵌入,分別綜合利用觀察到的運動的姿勢特征和潛在語義學。在反向擴散過程中,提出了一種運動轉換器,以從人類運動的頻譜空間內的多層特征中捕獲潛在的相關性。為了增強正常和異常實例之間的可辨別性,我們設計了一種新穎的聯合關聯差異(UAD)正則化,主要依賴于基于高斯核的時間關聯和self-attention-based全局關聯。最后,在反向擴散過程的推理階段引入了掩碼完成策略,以提高條件運動在異常檢測預測分支中的利用率。在四個數據集上進行的廣泛實驗表明,我們的方法顯著優于最先進的方法,并表現出卓越的泛化性能。

圖像生成

通用生成優化

(字節跳動) ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models 靈活生成不同分辨率

Code:https://github.com/bytedance/res-adapter
文本到圖像模型和相應的個性化技術的最新進展使個人能夠生成高質量和富有想象力的圖像。但是,它們在生成分辨率超出其訓練域的圖像時通常會受到限制。為了克服這個限制,我們提出了分辨率適配器 \textbf{(ResAdapter)},這是一個專為擴散模型設計的域一致性適配器,用于生成具有不受限制的分辨率和縱橫比的圖像。與其他使用復雜的后處理作處理靜態分辨率圖像的多分辨率生成方法不同,ResAdapter 直接生成具有動態分辨率的圖像。 特別是,在深入了解了純分辨率先驗之后,在通用數據集上訓練的 ResAdapter 在保留其原始樣式域的同時,生成了具有個性化擴散模型的無分辨率圖像。綜合實驗表明,僅 0.5M 的 ResAdapter 可以處理任意擴散模型具有靈活分辨率的圖像。更多擴展的實驗表明,ResAdapter 與其他模塊兼容,可在廣泛的分辨率范圍內生成圖像,并且可以集成到其他多分辨率模型中,以高效生成更高分辨率的圖像。

圖像編輯

DiT4Edit: Diffusion Transformer for Image Editing 基于Diffusion的圖像編輯

Code:https://github.com/fkyyyy/DiT4Edit
盡管基于 UNet 的圖像編輯最近取得了進展,但仍然缺乏在高分辨率圖像中編輯形狀感知對象的方法。與 UNet 相比,Diffusion Transformers (DiT) 表現出卓越的能力,可以有效捕獲補丁之間的長距離依賴關系,從而生成更高質量的圖像。在本文中,我們提出了 DiT4Edit,這是第一個基于 Diffusion Transformer 的圖像編輯框架。具體來說,DiT4Edit 使用 DPM-Solver 反演算法來獲取倒置的潛在值,與基于 UNet 的框架中常用的 DDIM 反演算法相比,減少了步驟數。此外,我們還為 transformer 計算流設計了統一的注意力控制和補丁合并。這種集成使我們的框架能夠更快地生成更高質量的編輯圖像。我們的設計利用了 DiT 的優勢,使其在圖像編輯方面能夠超越 UNet 結構,尤其是在高分辨率和任意尺寸的圖像中。廣泛的實驗證明了 DiT4Edit 在各種編輯場景中的強大性能,凸顯了擴散變壓器在圖像編輯中的潛力。

Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing

目前的方法通常利用反轉、重建和編輯三個分支結構來處理一致的圖像編輯任務。但是,這些方法無法控制已編輯對象的生成位置,并且存在背景保留問題。為了克服這些限制,我們提出了一種只有兩個分支的免調音方法: inversion 和 editing 。此方法允許用戶同時編輯對象的作并控制已編輯對象的生成位置。此外,它還實現了改進的背景保留。具體來說,我們將編輯過的物體信息傳輸到目標區域,并在特定時間步的反演過程中修復或保留其他區域的背景。在編輯階段,我們使用 self-attention 中的圖像特征,在反演中查詢對應時間步長的 key 和值,以實現一致的圖像編輯。令人印象深刻的圖像編輯結果和定量評估證明了我們方法的有效性。

變化檢測

主要用于遙感圖像等,但可以思考是否可以用于缺陷的檢測,因為缺陷相比正常圖像也屬于“變化”

EMPLACE: Self-Supervised Urban Scene Change Detection

城市變遷是一個持續的過程,它影響著人們對街區的認知以及街區內居民的生活。城市場景變化檢測(USCD)領域旨在利用計算機視覺捕捉街道場景的變化,有助于提高人們對這些變化的認識,從而更好地了解城市及其居民。傳統上,USCD領域使用基于小規模數據集的監督方法。這在將這些方法應用于新城市時存在局限性,因為它需要大量人力的標注過程,并且需要事先定義相關變化。在本文中,我們介紹了AC - 1M,這是目前最大的USCD數據集,包含超過110萬張圖像,同時還介紹了EMPLACE,這是一種自監督方法,使用我們的自適應三元組損失來訓練視覺Transformer。我們展示了EMPLACE無論是作為線性微調的預訓練方法還是在零樣本設置下,都優于當前最先進的方法。最后,在對阿姆斯特丹的案例研究中,我們表明我們能夠檢測到整個城市的大小變化,并且EMPLACE發現的變化(取決于規模)與房價相關,而房價又反過來反映了不平等情況。

[Zero-Shot Scene Change Detection](Zero-Shot Scene Change Detection)

Code:https://github.com/kyusik-cho/ZSSCD
我們提出了一種新穎的、無需訓練的場景變化檢測方法。我們的方法利用跟蹤模型,該模型通過識別常見對象和檢測新對象或缺失對象,本質上在連續視頻幀之間執行變化檢測。具體來說,我們的方法通過輸入參考和查詢圖像而不是連續幀來利用跟蹤模型的變化檢測效果。此外,我們關注變化檢測中兩個輸入圖像之間的內容差距和風格差距,并通過分別提出自適應內容閾值和樣式橋接層來解決這兩個問題。最后,我們將方法擴展到視頻,利用豐富的時間信息來提高場景變化檢測的性能。我們通過各種實驗比較我們的方法和基線。雖然現有的基于訓練的基線往往只專注于經過訓練的領域,但我們的方法在各個領域顯示出一致的性能,證明了我們方法的競爭力。

zero-shot

ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning

Code:https://github.com/Houwenjin/ZeroMamba
零樣本學習 (ZSL) 旨在通過在語義信息的指導下將語義知識從可見的類轉移到不可見的類來識別看不見的類。為此,現有工作通過利用卷積神經網絡 (CNN) 或視覺轉換器 (ViTs) 的全局視覺特征進行視覺語義交互,展示了卓越的性能。然而,由于 CNN 的感受野有限和 ViT 的二次復雜度,這些視覺支柱實現了次優的視覺語義交互。在本文中,受能夠捕獲遠程依賴關系和建模復雜視覺動力學的視覺狀態空間模型(即 Vision Mamba)的啟發,我們提出了一種名為 ZeroMamba 的參數高效 ZSL 框架來推進 ZSL。我們的 ZeroMamba 包括三個關鍵組件:語義感知局部投影 (SLP)、全局表示學習 (GRL) 和語義融合 (SeF)。具體來說,SLP 集成了語義嵌入以將視覺特征映射到與局部語義相關的表示,而 GRL 鼓勵模型學習全局語義表示。SeF 將這兩種語義表示相結合,以增強語義特征的可區分性。我們將這些設計整合到 Vision Mamba 中,形成一個端到端的 ZSL 框架。因此,學習的語義表示更適合分類。通過對四個著名的 ZSL 基準測試進行廣泛實驗,ZeroMamba 表現出卓越的性能,在傳統 ZSL (CZSL) 和廣義 ZSL (GZSL) 設置下,其性能明顯優于最先進的(即基于 CNN 和基于 ViT)的方法。

參數高效微調

Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation

Code:https://github.com/jiaqihuang01/DETRIS
在計算機視覺領域,參數高效調整 (PET) 正越來越多地取代傳統的預訓練后進行全面微調的范式。PET 因其在大型基礎模型中的有效性而受到特別青睞,因為它簡化了遷移學習成本并優化了硬件利用率。然而,目前的 PET 方法主要是為單模態優化而設計的。雖然一些開創性的研究已經進行了初步探索,但它們仍然停留在對準編碼器(例如 CLIP)的水平上,缺乏對未對準編碼器的探索。這些方法在未對準的編碼器上顯示出次優的性能,因為它們在微調過程中無法有效地對齊多模態特征。在本文中,我們介紹了 DETRIS,這是一個參數高效的調整框架,旨在通過在每一層和所有前面的層之間建立密集的互連來增強低秩視覺特征傳播,從而實現有效的跨模態特征交互和對未對準編碼器的適應。我們還建議使用文本適配器來改進文本功能。我們簡單而有效的方法大大超越了最先進的方法,在具有挑戰性的基準上進行了 0.9% 到 1.8% 的主干參數更新。

第39期AAAI不同卷下的主題簡介

第39期AAAI當前已初版28卷,每卷下包含不少于1個主題(track),大家可以根據自己的方向重點關注相關卷

卷號英文原文主題中文翻譯主題
Vol.1AAAI Technical Track on Application Domains應用領域技術
Vol.2AAAI Technical Track on Cognitive Modeling & Cognitive Systems
AAAI Technical Track on Computer Vision I
認知建模與認知系統技術
計算機視覺I技術
Vol.3AAAI Technical Track on Computer Vision II計算機視覺II技術
Vol.4AAAI Technical Track on Computer Vision III計算機視覺III技術
Vol.5AAAI Technical Track on Computer Vision IV計算機視覺IV技術
Vol.6AAAI Technical Track on Computer Vision V計算機視覺V技術
Vol.7AAAI Technical Track on Computer Vision VI計算機視覺VI技術
Vol.8AAAI Technical Track on Computer Vision VII計算機視覺VII技術
Vol.9AAAI Technical Track on Computer Vision VIII計算機視覺VIII技術
Vol.10AAAI Technical Track on Computer Vision IX計算機視覺IX技術
Vol.11AAAI Technical Track on Constraint Satisfaction and Optimization
AAAI Technical Track on Data Mining & Knowledge Management I
約束滿足與優化技術
數據挖掘與知識管理I技術
Vol.12AAAI Technical Track on Data Mining & Knowledge Management II數據挖掘與知識管理II技術
Vol.13AAAI Technical Track on Game Theory and Economic Paradigms
AAAI Technical Track on Humans and AI
博弈論與經濟范式技術
人類與人工智能技術
Vol.14AAAI Technical Track on Intelligent Robots
AAAI Technical Track on Knowledge Representation and Reasoning
智能機器人技術
知識表示與推理技術
Vol.15AAAI Technical Track on Machine Learning I機器學習I技術
Vol.16AAAI Technical Track on Machine Learning II機器學習II技術
Vol.17AAAI Technical Track on Machine Learning III機器學習III技術
Vol.18AAAI Technical Track on Machine Learning IV機器學習IV技術
Vol.19AAAI Technical Track on Machine Learning V機器學習V技術
Vol.20AAAI Technical Track on Machine Learning VI機器學習VI技術
Vol.21AAAI Technical Track on Machine Learning VII機器學習VII技術
Vol.22AAAI Technical Track on Multiagent Systems
AAAI Technical Track on Natural Language Processing I
多智能體系統技術
自然語言處理I技術
Vol.23AAAI Technical Track on Natural Language Processing II自然語言處理II技術
Vol.24AAAI Technical Track on Natural Language Processing III自然語言處理III技術
Vol.25AAAI Technical Track on Philosophy and Ethics of AI
AAAI Technical Track on Planning, Routing, and Scheduling
AAAI Technical Track on Reasoning under Uncertainty
AAAI Technical Track on Search and Optimization
人工智能哲學與倫理技術
規劃、路徑與調度技術
不確定性推理技術
搜索與優化技術
Vol.26AAAI Technical Track on AI AlignmentAAAI人工智能對齊技術
Vol.27AAAI Technical Track on AI for Social Impact TrackAAAI 人工智能促進社會影響技術
Vol.28AAAI Doctoral Consortium Track AAAI
AAAI Student Abstract and Poster Program
AAAI Undergraduate Consortium
AAAI Demonstration Track AAAI
AAAI博士研討會專場
AAAI學生摘要與海報項目
AAAI本科生聯盟
AAAI演示賽道

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904404.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904404.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904404.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數據結構實驗8.1:圖的基本操作

文章目錄 一,實驗目的二,實驗內容三,實驗要求四,算法分析五,示例代碼8-1.cpp源碼graph.h源碼 六,操作步驟七,運行結果 一,實驗目的 1.掌握圖的鄰接矩陣、鄰接表的表示方…

Spring Boot3 實現定時任務 每10分鐘執行一次,同時要解決分布式的問題 區分不同場景

在Spring Boot 3中實現分布式定時任務,確保多實例環境下任務僅執行一次,可以采用以下方案: 方案一:Redis分布式鎖(推薦) import org.springframework.data.redis.core.StringRedisTemplate; import org.sp…

WPF MVVM入門系列教程(五、命令和用戶輸入)

🧭 WPF MVVM入門系列教程 一、MVVM模式介紹二、依賴屬性三、數據綁定四、ViewModel五、命令和用戶輸入六、ViewModel案例演示 WPF中的命令模型 在WPF中,我們可以使用事件來響應鼠標和鍵盤動作。 但使用事件會具備一定的局限性,例如&#x…

2025年01月09日德美醫療前端面試

目錄 vue2 的雙向綁定的原理vue3 的雙向綁定原理vue 的生命周期vue 子組件為何不能修改父組件的值js delete 刪除數組的某一個值會怎么樣vue 和 react 的 diff 算法什么是閉包原型鏈this指向 vue2 的雙向綁定的原理 以下是 Vue 2 雙向綁定的原理: 1. 核心概念 …

知識圖譜 + 大語言模型:打造更聰明、更可靠的AI大腦 —— 探索 GraphRAG 中文優化與可視化實踐

大語言模型(LLMs)無疑是近年來人工智能領域最耀眼的明星。它們強大的自然語言理解和生成能力,在文本創作、代碼生成、對話交互等眾多領域展現了驚人的潛力。然而,當前的 LLMs 并非完美無缺,它們常常面臨著“幻覺”&…

【uniapp】在UniApp中檢測手機是否安裝了某個應用

1. 使用plus.runtime.isApplicationExist(僅限App端) // 判斷應用是否安裝 function checkAppInstalled(packageName) {if (uni.getSystemInfoSync().platform android || uni.getSystemInfoSync().platform ios) {// 僅App端可用if (typeof plus ! u…

使用 Vue + Axios 構建與后端交互的高效接口調用方案

使用 Vue Axios 構建與后端交互的高效接口調用方案 在 Vue 前端開發中,與后端接口的數據交互是非常核心的部分。而 Axios 是 Vue 項目中最常用的 HTTP 客戶端,具備基于 Promise、攔截器、自定義實例等諸多優勢。 本篇將深入介紹如何基于 Vue 搭配 Axi…

RN學習筆記 ?

太無聊了最近,找點事做,學一下RN豐富一下技術棧🫡。但是開發APP除了RN,還有一種選擇就是WebView,但是基于WebView的APP的性能被普遍認為不如RN,因為WebView本質上是一個容器,用于在應用中嵌入網…

聊天助手提示詞調優案例

一、背景 今天有粉絲說自己的聊天助手提示詞輸出的效果不好,輸出的內容不是太呆板就是太浮夸,希望更像真人一樣。 本文介紹幾個調優方法,希望對大家有啟發。 二、調優 《系統掌握大語言模型提示詞 - 從理論到實踐》提示詞小冊中介紹了很多…

5.6 react組件化開發基礎

react 組件開發基礎 組件分類與組件使用 組件傳參 父傳子 【函數數據傳值 實參 形參對應關系】 子傳父 插槽 透傳 useContext 上下文(作用域) 跨層級調用方法 通過子組件的實例對象useRef 直接調用子組件的方法 和數據 狀態管理(非常多…

【SF順豐】順豐開放平臺API對接(Java對接篇)

對接前置篇: 【SF順豐】順豐開放平臺API對接(注冊、API測試篇)_順豐api接口對接指南-CSDN博客 1.實現效果展示 2.SF順豐開放平臺,JDK資源下載。 下載地址:順豐開放平臺 3.將下載的JDK放入項目中。 4.將JDK資源引入p…

我用cursor 搭建了臨時郵箱服務-Temp Mail 365

用業余時間搭建了一個臨時郵箱,對于后端程序員出身的我,對前端了解的不太多,有了cursor的幫助,補齊了自己的短板,搭建了這個服務,下面對臨時郵箱架構設計與安全性做一個分析。 https://temp-mail-365.com 臨…

破解工業3D可視化困局,HOOPS Visualize助力高效跨平臺協作與交互!

一、當前3D可視化面臨的痛點 (1)性能瓶頸 現有的許多3D可視化工具在處理大型復雜模型時往往力不從心。例如在航空航天、汽車制造等高端制造業,動輒涉及數以億計的三角面片和海量的紋理細節。這些超大規模的模型在渲染時常常出現卡頓、延遲&…

1、Kafka與消息隊列核心原理詳解

消息隊列(Message Queue, MQ)作為現代分布式系統的基礎組件,極大提升了系統的解耦、異步處理和削峰能力。本文以Kafka為例,系統梳理消息隊列的核心原理、架構細節及實際應用。 Kafka 基礎架構及術語關系圖 術語簡要說明 Produce…

2025年北京市職工職業技能大賽第六屆信息通信行業網絡安全技能大賽初賽-wp

- -考試當場沒做出來 后面做的 misc ? cd misc ? ls num.docx num.zip ? unzip num.docx Archive: num.docxinflating: [Content_Types].xmlinflating: _rels/.relsinflating: word/document.xmlinflating: word/_rels/document.xml.relsextracting: word/media/image1.jp…

JavaScript 到命令和控制 (C2) 服務器惡意軟件分析及防御

攻擊始于一個經過混淆的JavaScript文件,該文件從開源服務中獲取編碼字符串以執行PowerShell腳本。然后,該腳本從一個IP地址和一個URL縮短器下載一個JPG圖像和一個文本文件,這兩個文件都包含使用隱寫術嵌入的惡意MZ DOS可執行文件。這些有效載荷一旦執行,就會部署Stealer惡意…

【計網】ipconfig、ping、arp、tracert

目錄 ipconfig ping arp tracert cmd ipconfig ipcofig -all IPv4 物理地址 ping 檢測網絡連通情況,分析網絡速度 根據域名得到服務器IP 根據TTL判斷對方所使用的操作系統以及數據包經過路由器數量 byte數據包大小 time響應時間 TTLDNS記錄在DNS服務器上存在…

WiFi那些事兒(八)——802.11n

目錄 802.11n 技術簡介與測試項 一、802.11n 技術簡介 (一)標準概述 (二)關鍵技術特性 1. MIMO(多輸入多輸出)技術 2. 信道綁定(Channel Bonding) 3. 幀聚合(Fram…

碼蹄集——直角坐標到極坐標的轉換、射線、線段

目錄 MT1052 直角坐標到極坐標的轉換 MT1066 射線 MT1067 線段 MT1052 直角坐標到極坐標的轉換 思路&#xff1a; arctan()在c中是atan()&#xff0c;結果是弧度要轉換為度&#xff0c;即乘與180/PI 拓展&#xff1a;cos()、sin()在c代碼中表示方式不變 #include<bits/…

深入解析 Linux/Unix 通信機制:從原理到觀測實踐

深入解析 Linux/Unix 通信機制&#xff1a;從原理到觀測實踐 配圖建議&#xff1a;Linux系統架構與通信機制全景示意圖 一、開篇&#xff1a;理解“一切皆文件”的哲學 Unix/Linux 操作系統的核心靈魂在于其獨特的設計哲學。當 Dennis Ritchie 和 Ken Thompson 在貝爾實驗室開…