CVPR2025 | 對抗樣本智能安全方向論文匯總 | 持續更新中~

在這里插入圖片描述


匯總結果來源:CVPR 2025 Accepted Papers

若文中出現的 論文鏈接GitHub鏈接 點不開,則說明還未公布,在公布后筆者會及時添加. 若筆者未及時添加,歡迎讀者告知.

文章根據題目關鍵詞搜索,可能會有遺漏. 若筆者出現遺漏,歡迎告知.

部分文章還未公布正文,只有名稱.


Mind the Gap:通過查詢更新分析檢測正在進行中的黑盒對抗攻擊
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis | 對抗防御

論文鏈接

GitHub鏈接

摘要:對抗攻擊仍然是一個重大威脅,可能會危及機器學習(ML)模型的完整性。特別是,基于查詢的黑盒攻擊可以在無法訪問受害模型架構的情況下生成惡意噪聲,這使得其在實際環境中具有實用性。現在已經提出了幾種針對對抗攻擊的防御措施,但卻被更先進和自適應的攻擊策略所突破。在本文中,我們提出了一個框架,用于檢測是否正在生成對抗噪聲實例。與現有的通過監測輸入空間來檢測對抗噪聲生成的有狀態防御不同,我們的方法在輸入更新相似性空間中學習對抗模式。實際上,我們提出觀察一種稱為增量相似性(DS)的新指標,我們表明它能更有效地捕捉對抗行為。我們針對 8 種最先進的攻擊(包括自適應攻擊,其中攻擊者知道防御并試圖逃避檢測)評估我們的方法。我們發現,我們的方法在特異性和敏感性方面都比現有防御更加穩健。


Adv-CPG:帶有面部對抗攻擊的定制肖像生成框架
Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks | 對抗攻擊

論文鏈接

GitHub鏈接

摘要:近期的定制肖像生成(CPG)方法以面部圖像和文本提示作為輸入,引起了廣泛關注。盡管這些方法生成高保真度的肖像,但它們無法防止生成的肖像被惡意人臉識別系統跟蹤和濫用。為了解決這個問題,本文提出了一種帶有面部對抗攻擊的定制肖像生成框架(Adv-CPG)。具體來說,為了實現面部隱私保護,我們設計了一個輕量級的局部身份加密器和一個加密增強器。它們分別通過直接注入目標身份和添加額外的身份指導來實現漸進式雙層加密保護。此外,為了完成細粒度和個性化的肖像生成,我們開發了一種多模態圖像定制器,能夠生成可控的細粒度面部特征。據我們所知,Adv-CPG 是第一個將面部對抗攻擊引入 CPG 的研究。大量實驗證明了 Adv-CPG 的優越性,例如,所提出的 Adv-CPG 的平均攻擊成功率分別比最先進的基于噪聲的攻擊方法和無約束攻擊方法高 28.1%和 2.86%.


DEAL:面向高質量紅外成像的數據高效對抗學習
DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging | 對抗訓練

論文鏈接

GitHub鏈接

摘要:熱成像通常會受到硬件限制和不可預測的環境因素引起的動態、復雜退化的影響。高質量紅外數據的稀缺性,加上動態、復雜退化的挑戰,使得使用現有方法難以恢復細節。在本文中,我們通過將這些退化因素建模為對熱圖像的對抗攻擊,通過最小-最大優化將熱退化模擬集成到訓練過程中。該模擬是動態的,以最大化目標函數,從而捕獲廣泛的退化數據分布。這種方法可以在有限的數據下進行訓練,從而提高模型性能。此外,我們引入了一種雙交互網絡,該網絡將脈沖神經網絡的優勢與尺度變換相結合,以具有尖銳的脈沖信號強度捕獲退化特征。這種架構在保持高效特征表示的同時確保了緊湊的模型參數。大量實驗表明,我們的方法不僅在各種單一和復合退化下實現了卓越的視覺質量,而且在僅使用五十張清晰圖像進行訓練時,在處理方面實現了顯著減少,在效率和準確性方面優于現有技術。


AnyAttack:可用于任何圖像的針對視覺語言模型的目標性對抗攻擊
AnyAttack: Targeted Adversarial Attacks on Vision-Language Models Toward Any Images | 對抗攻擊 | 視覺語言模型

論文鏈接

GitHub鏈接

摘要:由于其多模態能力,視覺語言模型(VLMs)在現實場景中找到了許多有影響力的應用。然而,最近的研究表明,VLMs 容易受到基于圖像的對抗攻擊,特別是目標性的對抗圖像,這些圖像操縱模型生成由攻擊者指定的有害內容。當前的攻擊方法依賴于預定義的目標標簽來創建有針對性的對抗攻擊,這限制了它們在大規模魯棒性評估中的可擴展性和適用性。在本文中,我們提出了 AnyAttack,這是一個自監督框架,無需標簽監督即可為 VLMs 生成有針對性的對抗圖像,允許任何圖像作為攻擊的目標。我們的框架采用“預訓練和微調”范式,對抗噪聲生成器在大規模 LAION-400M 數據集上進行預訓練。這種大規模預訓練使我們的方法在廣泛的 VLMs 中具有強大的可遷移性。在五個主流開源 VLMs(CLIP、BLIP、BLIP2、InstructBLIP 和 MiniGPT-4)上進行的三個多模態任務(圖像文本檢索、多模態分類和圖像字幕)的廣泛實驗證明了我們攻擊的有效性。此外,我們成功地將 AnyAttack 轉移到多個商業 VLMs,包括 Google Gemini、Claude Sonnet、Microsoft Copilot 和 OpenAI GPT。這些結果揭示了 VLMs 面臨的前所未有的風險,強調了需要有效的對策。


NitroFusion:通過動態對抗訓練實現高保真單步擴散
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training | 對抗訓練

論文鏈接

GitHub鏈接

摘要:我們引入了 NitroFusion,這是一種與單步擴散的完全不同的方法,它通過動態對抗框架實現高質量生成。雖然單步方法具有顯著的速度優勢,但與多步方法相比,它們通常會遭受質量下降的問題。就像一組藝術評論家通過專注于構圖、色彩和技巧等不同方面提供全面反饋一樣,我們的方法維持著大量的專業判別器頭,共同指導生成過程。每個判別器組在不同噪聲水平下針對特定質量方面發展專業知識,提供多樣化的反饋,從而實現高保真單步生成。我們的框架結合了:(i)具有專業判別器組的動態判別器池以提高生成質量;(ii)防止判別器過擬合的策略性刷新機制;以及(iii)用于多尺度質量評估的全局-局部判別器頭,以及用于平衡生成的無條件/有條件訓練。此外,我們的框架獨特地支持通過自下而上的細化進行靈活部署,允許用戶使用同一模型在 1-4 個去噪步驟之間動態選擇,以直接權衡質量和速度。通過全面的實驗,我們證明 NitroFusion 在多個評估指標上顯著優于現有的單步方法,尤其在保留精細細節和全局一致性方面表現出色。


TAPT:用于視覺語言模型魯棒推理的測試時對抗提示微調
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models

論文鏈接

GitHub鏈接

摘要:像CLIP這樣的大規模預訓練視覺語言模型(VLMs)在各種下游任務中展現出了卓越的零樣本泛化能力。然而,最近的研究表明,CLIP的推理性能會因微小的對抗擾動而大幅下降,尤其是在視覺模態方面,這構成了重大的安全威脅。為了緩解這一漏洞,在本文中,我們提出了一種名為測試時對抗提示調整(TAPT)的新型防御方法,以增強CLIP在面對視覺對抗攻擊時的推理魯棒性。TAPT是一種測試時防御方法,它學習防御性的雙模態(文本和視覺)提示,以強化CLIP的推理過程。具體而言,這是一種無監督方法,通過最小化多視圖熵并對齊對抗-干凈分布,為每個測試樣本優化防御性提示。我們在11個基準數據集上評估了TAPT的有效性,這些數據集包括ImageNet和其他10個零樣本數據集。結果表明,TAPT在對抗AutoAttack(AA)時,將原始CLIP的零樣本對抗魯棒性提高了至少48.9%,同時在很大程度上保持了在干凈樣本上的性能。此外,TAPT在各種骨干網絡上均優于現有的對抗提示調整方法,平均魯棒性提升至少36.6%.


STEREO:一種用于文生圖擴散模型中進行對抗魯棒概念擦除的兩階段框架
STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

論文鏈接

GitHub鏈接

摘要:大規模文本到圖像生成(T2IG)模型的迅速擴散引發了人們對其在生成有害內容方面可能被濫用的擔憂。盡管已經提出了許多從 T2IG 模型中擦除不期望概念的方法,但它們僅提供了一種虛假的安全感,因為最近的研究表明,概念擦除模型(CEM)很容易被對抗性攻擊欺騙以生成已擦除的概念。在不顯著降低模型效用(生成良性概念的能力)的情況下進行對抗性魯棒概念擦除的問題仍然是一個未解決的挑戰,特別是在對手可以訪問 CEM 的白盒設置中。為了解決這一差距,我們提出了一種名為 STEREO 的方法,它包括兩個不同的階段。在第一階段,通過利用來自對抗訓練的魯棒優化原則,充分搜索能夠從 CEM 中再生已擦除概念的強大且多樣化的對抗性提示。在第二階段“一次性穩健擦除”中,我們引入了基于錨概念的組合目標,以一次性穩健地擦除目標概念,同時盡量減少對模型效用的降低。通過在三種對抗性攻擊下將提出的 STEREO 方法與四種最先進的概念擦除方法進行基準測試,我們證明了它能夠實現更好的魯棒性與效用的權衡。


將更強的單獨攻擊用于百萬規模的對抗魯棒性評估
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks

論文鏈接

GitHub鏈接

摘要:隨著深度學習模型越來越多地部署在安全關鍵型應用中,評估它們對對抗性擾動的脆弱性對于確保其可靠性和可信度至關重要。在過去十年中,已經提出了大量的白盒對抗魯棒性評估方法(即攻擊方法),從單步到多步方法,從單獨方法到集成方法。盡管取得了這些進展,但在進行有意義且全面的魯棒性評估方面仍然存在挑戰,特別是在大規模測試以及確保評估反映現實世界中的對抗風險時。在這項工作中,我們專注于圖像分類模型,并提出了一種新穎的單獨攻擊方法,即概率余量攻擊(PMA),它在概率空間而不是對數空間中定義對抗余量。我們分析了 PMA 與現有的基于交叉熵或基于對數余量的攻擊之間的關系,并表明 PMA 可以超越當前最先進的單獨方法。基于 PMA,我們提出了兩種類型的集成攻擊,平衡了有效性和效率。此外,我們從現有的 CC3M 數據集創建了一個百萬規模的數據集 CC1M,并使用它對經過對抗訓練的 ImageNet 模型進行首次百萬規模的白盒對抗魯棒性評估。我們的發現為單獨攻擊與集成攻擊之間以及小規模評估與百萬規模評估之間的魯棒性差距提供了有價值的見解。


基于弱監督對比對抗訓練從半監督數據中學習魯棒特征
Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised Data

論文鏈接

GitHub鏈接

摘要:現有的對抗性訓練(AT)方法經常遭受不完全擾動,這意味著在生成對抗性示例(AE)時,并非所有非魯棒特征都受到擾動。這導致非魯棒特征和標簽之間存在殘余相關性,導致魯棒特征的次優學習。然而,由于難以區分魯棒和非魯棒特征以及標記數據的稀疏性,實現完全擾動——擾動盡可能多的非魯棒特征——具有挑戰性。為了應對這些挑戰,我們提出了一種稱為弱監督對抗性對抗性訓練(WSCAT)的新方法。WSCAT通過基于信息論的部分標記數據上的完整AE生成來破壞非魯棒特征和標簽之間的相關性,從而確保完全擾動以改進魯棒特征的學習。廣泛采用的基準上的廣泛理論分析和全面實驗驗證了WSCAT的優越性。


CLIP 強大到足以反擊:針對 CLIP 零樣本對抗魯棒性的測試時反擊
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

論文鏈接

GitHub鏈接

摘要:盡管 CLIP 以零樣本方式在圖像文本匹配任務中得到廣泛應用,但已被證明對添加到圖像上的對抗性擾動高度敏感。最近的研究提出使用即時生成的對抗性樣本對 CLIP 的視覺編碼器進行微調,并在一系列下游數據集上展示出對對抗性攻擊的改進的魯棒性,這一特性被稱為零樣本魯棒性。在本文中,我們表明旨在最大化分類損失的惡意擾動會導致“虛假穩定”的圖像,并提出在推理期間利用 CLIP 的預訓練視覺編碼器來反擊此類對抗性圖像以實現魯棒性。我們的范例簡單且無需訓練,提供了第一種在測試時保護 CLIP 免受對抗性攻擊的方法,這與現有的旨在提高 CLIP 的零樣本對抗魯棒性的方法完全不同。我們在 16 個分類數據集上進行實驗,并與從現有的對抗魯棒性研究中改編的不依賴外部網絡的測試時防御方法相比,展示了穩定且一致的收益,同時不會明顯損害干凈圖像上的性能。我們還表明,我們的范例可以應用于經過對抗性微調的 CLIP 模型,以在測試時進一步增強其魯棒性。


BEARD:用于數據集蒸餾的對抗魯棒性基準測試
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation

論文鏈接

GitHub鏈接

BEARD Leaderboard

摘要:數據集蒸餾(Dataset Distillation,DD)是一種新興技術,它將大規模數據集壓縮為顯著更小的合成數據集,同時保持較高的測試性能,并能夠高效地訓練大型模型。然而,當前的研究主要集中在有限壓縮比下提高評估準確性,常常忽略了對抗魯棒性等關鍵安全問題。評估這種魯棒性的一個關鍵挑戰在于蒸餾方法、模型架構和對抗攻擊策略之間的復雜交互,這使得標準化評估變得復雜。為了解決這個問題,我們引入了 BEARD,這是一個開放且統一的基準,旨在系統地評估 DD 方法(包括 DM、IDM 和 BACON)的對抗魯棒性。BEARD 涵蓋了對 CIFAR10/100 和 TinyImageNet 等蒸餾數據集的各種對抗攻擊(例如 FGSM、PGD、C&W)。利用對抗博弈框架,它引入了三個關鍵指標:魯棒性比率(Robustness Ratio,RR)、攻擊效率比率(Attack Efficiency Ratio,AE)和綜合魯棒性 - 效率指數(Comprehensive Robustness-Efficiency Index,CREI)。我們的分析包括統一的基準、各種每類圖像(Images Per Class,IPC)設置以及對抗訓練的效果。結果可在 BEARD Leaderboard 上獲得,同時還有一個提供模型和數據集池的庫,以支持可重復的研究。


通過多損失對抗搜索探索用于視覺語言模型越獄的視覺漏洞
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

論文鏈接

GitHub鏈接

摘要:盡管從基礎語言模型繼承了安全措施,但視覺語言模型(VLMs)可能仍然容易受到安全對齊問題的影響。通過實證分析,我們發現了兩個關鍵結論:場景匹配的圖像可以顯著放大有害輸出,并且與基于梯度的攻擊中的常見假設相反,最小損失值并不能保證最佳攻擊效果。基于這些見解,我們引入了 MLAI(多損失對抗圖像),這是一種新穎的越獄框架,它利用場景感知圖像生成進行語義對齊,利用平坦最小值理論進行穩健的對抗圖像選擇,并采用多圖像協同攻擊以提高效果。大量實驗證明了 MLAI 的重大影響,在 MiniGPT-4 上實現了 77.75%的攻擊成功率,在 LLaVA-2 上實現了 82.80%的攻擊成功率,分別比現有方法大幅高出 34.37%和 12.77%。此外,MLAI 對商業黑盒 VLMs 顯示出相當大的可轉移性,成功率高達 60.11%。我們的工作揭示了當前 VLMs 安全機制中的基本視覺漏洞,并強調了需要更強的防御措施。


SceneTAP:現實世界環境中針對視覺語言模型的場景連貫的印刷體對抗規劃器
SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments

論文鏈接

GitHub鏈接

摘要:大型視覺語言模型(LVLMs)在解釋視覺內容方面表現出了卓越的能力。雖然現有工作表明這些模型容易受到故意放置的對抗性文本的攻擊,但這些文本通常很容易被識別為異常。在本文中,我們提出了第一種生成場景連貫的印刷體對抗性攻擊的方法,該方法通過基于大型語言模型(LLM)的代理的能力誤導先進的 LVLMs,同時保持視覺自然性。我們的方法解決了三個關鍵問題:生成什么樣的對抗性文本、將其放置在場景中的何處以及如何無縫集成。我們提出了一種無需訓練、多模態的由 LLM 驅動的場景連貫的印刷體對抗性規劃(SceneTAP),它采用三階段過程:場景理解、對抗性規劃和無縫集成。SceneTAP 利用思維鏈推理來理解場景、制定有效的對抗性文本、策略性地規劃其放置位置,并提供在圖像中自然集成的詳細說明。接著是一個場景連貫的 TextDiffuser,它使用局部擴散機制執行攻擊。我們通過打印并將生成的補丁放置在物理環境中,將我們的方法擴展到現實世界場景,展示了其實際意義。大量實驗表明,我們的場景連貫的對抗性文本成功地誤導了最先進的 LVLMs,包括 ChatGPT-4o,即使在捕獲物理設置的新圖像后也是如此。我們的評估表明,在保持視覺自然性和上下文適當性的同時,攻擊成功率顯著提高。這項工作突出了當前視覺語言模型對復雜的、場景連貫的對抗性攻擊的脆弱性,并為潛在的防御機制提供了見解。


使用擾動偽造檢測對抗性數據
Detecting Adversarial Data Using Perturbation Forgery

論文鏈接

GitHub鏈接

摘要:作為對抗攻擊的一種防御策略,對抗性檢測旨在根據自然數據和對抗性數據之間的分布差異和噪聲模式差異,從數據流中識別并過濾出對抗性數據。盡管先前的檢測方法在檢測基于梯度的對抗攻擊方面表現出色,但基于具有不平衡和各向異性噪聲模式的生成模型的新攻擊卻能逃避檢測。更糟糕的是,顯著的推理時間開銷和對未知攻擊的有限性能使得現有技術在實際應用中不切實際。在本文中,我們探索了對抗性噪聲分布之間的鄰近關系,并證明了這些分布存在一個開覆蓋。通過在對抗性噪聲分布的開覆蓋上進行訓練,可以開發出一種對各種類型的未知攻擊具有強大泛化性能的檢測器。基于這一見解,我們啟發式地提出了擾動偽造,它包括噪聲分布擾動、稀疏掩碼生成和偽對抗性數據生成,以訓練一個能夠檢測任何未知的基于梯度、基于生成和物理對抗攻擊的對抗性檢測器。在多個通用和面部數據集上進行的綜合實驗,涵蓋了廣泛的攻擊類型,驗證了我們方法的強大泛化能力。


分治:基于擴散的對抗性凈化中的異構噪聲集成
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification

論文鏈接

GitHub鏈接

摘要:現有的基于擴散的凈化方法旨在通過正向擴散過程引入一定量的噪聲來破壞對抗性擾動,然后通過反向過程恢復干凈的樣本。然而,這種方法存在根本缺陷:正向過程在所有像素上的統一操作在對抗對抗性擾動時會損害正常像素,導致目標模型產生錯誤的預測。僅僅依賴低強度噪聲不足以進行有效防御。為了解決這個關鍵問題,我們實施了一種基于神經網絡可解釋性的異構凈化策略。我們的方法果斷地將高強度噪聲應用于目標模型關注的特定像素,而其余像素僅受到低強度噪聲。這一要求促使我們重新設計擴散模型的采樣過程,以便有效去除不同強度的噪聲。此外,為了針對強適應性攻擊評估我們的方法,我們提出的方法通過單步重采樣大幅降低了時間成本和內存使用。來自三個數據集的大量實驗的經驗證據表明,我們的方法在很大程度上優于大多數當前的對抗訓練和凈化技術。


TAET:長尾分布上的兩階段對抗均衡訓練
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions

論文鏈接

GitHub鏈接

摘要:對抗魯棒性在將深度神經網絡部署于實際應用中仍然是一個重大挑戰。盡管對抗訓練被廣泛認為是一種有前景的防御策略,但大多數現有研究主要集中在平衡數據集上,忽略了現實世界中的數據往往呈現出長尾分布這一事實,這給魯棒性帶來了巨大挑戰。在本文中,我們對長尾分布背景下的對抗訓練進行了深入分析,并確定了當前最先進的方法 AT-BSL 在這種情況下實現魯棒性能的局限性。為了應對這些挑戰,我們提出了一種新穎的訓練框架 TAET,它包括一個初始穩定階段,隨后是一個分層的均衡對抗訓練階段。此外,先前關于長尾魯棒性的工作在很大程度上忽略了一個關鍵評估指標——平衡準確率。為了填補這一空白,我們引入了平衡魯棒性的概念,這是一種專門在長尾分布下測量魯棒性的綜合指標。大量實驗表明,我們的方法優于現有的先進防御方法,在內存和計算效率方面都有顯著提高。我們相信,這項工作在應對實際應用中的魯棒性挑戰方面邁出了重要的一步。


具有偽語義先驗的無數據通用對抗性擾動
Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

論文鏈接

GitHub鏈接

摘要:無數據通用對抗擾動(UAP)是一種與圖像無關的對抗攻擊方式,它利用僅從隨機噪聲生成的單一擾動來欺騙深度神經網絡,且不依賴任何數據先驗信息。然而,傳統的無數據UAP方法往往由于隨機噪聲中缺乏語義信息,導致其遷移性有限。為解決這一問題,我們提出了一種新穎的無數據通用攻擊方法,該方法從UAP中遞歸生成偽語義先驗,在無數據UAP框架內豐富語義內容。我們的方法基于這樣一個觀察結果:UAP本身固有潛在的語義信息,通過區域采樣捕捉多種語義,可使生成的UAP作為替代數據先驗。我們進一步引入樣本重加權技術,聚焦受UAP影響較小的樣本,突出難樣本的重要性。利用偽語義先驗中的語義信息,我們還融入了輸入變換(通常在無數據UAP中因隨機先驗缺乏語義內容而效果不佳),以提升黑盒轉移性。在ImageNet上進行的全面實驗表明,我們的方法在平均愚弄率方面取得了顯著領先的最先進性能,與現有的無數據UAP方法相比,顯著提高了跨各種CNN架構的攻擊轉移性,甚至超越了依賴數據的UAP方法。


IDProtector:一種用于防止保留身份圖像生成的對抗噪聲編碼器
IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation

論文鏈接

GitHub鏈接

摘要:最近,像 InstantID 這樣的零樣本方法徹底改變了保持身份的生成。與 DreamBooth 等多圖像微調方法不同,這些零樣本方法利用強大的面部編碼器從單張肖像照片中提取身份信息,通過單次推理實現高效的保持身份的生成。然而,這種便利性給面部身份保護帶來了新的威脅。本文旨在保護肖像照片免受未經授權的基于編碼器的定制。我們引入了 IDProtector,這是一種對抗噪聲編碼器,可在單次前向傳遞中對肖像照片應用難以察覺的對抗噪聲。我們的方法為肖像提供針對多種最先進的基于編碼器的方法(包括 InstantID、IP-Adapter 和 PhotoMaker)的通用保護,同時確保對常見圖像變換(如 JPEG 壓縮、調整大小和仿射變換)具有魯棒性。跨不同肖像數據集和生成模型的實驗表明,IDProtector 對看不見的數據甚至閉源專有模型都能有效泛化。


真實世界圖像超分辨率的對抗擴散壓縮
Adversarial Diffusion Compression for Real-World Image Super-Resolution

論文鏈接

GitHub鏈接

摘要:真實世界圖像超分辨率(Real-ISR)旨在從被復雜未知過程降質的低分辨率輸入中重建高分辨率圖像。雖然許多基于穩定擴散(Stable Diffusion,SD)的 Real-ISR 方法取得了顯著成功,但它們緩慢的多步推理阻礙了實際部署。最近基于 SD 的單步網絡,如 OSEDiff 和 S3Diff,緩解了這個問題,但由于依賴大型預訓練 SD 模型,仍然產生了高昂的計算成本。本文在我們的對抗擴散壓縮(Adversarial Diffusion Compression,ADC)框架下,通過將單步擴散網絡 OSEDiff 提煉為一個精簡的擴散生成對抗網絡(diffusion-GAN)模型,提出了一種新穎的 Real-ISR 方法 AdcSR。我們仔細檢查了 OSEDiff 的模塊,將它們分為兩類:(1)可移除的(VAE編碼器、提示提取器、文本編碼器等)和(2)可修剪的(去噪 U-Net 和VAE解碼器)。由于直接移除和修剪可能會降低模型的生成能力,我們對修剪后的變分自編碼器解碼器進行預訓練,以恢復其解碼圖像的能力,并采用對抗性提煉來補償性能損失。這種基于 ADC 的擴散生成對抗網絡混合設計在推理時間、計算量和參數方面分別有效地降低了 73%、78%和 74%的復雜性,同時保留了模型的生成能力。實驗表明,我們提出的 AdcSR 在合成數據集和真實世界數據集上都實現了具有競爭力的恢復質量,與以前的單步基于擴散的方法相比,速度提高了高達 9.3 倍。


MOS-Attack:一種可擴展的多目標對抗攻擊框架
MOS-Attack: A Scalable Multi-objective Adversarial Attack Framework

論文鏈接

GitHub鏈接

摘要:生成對抗樣本對于評估和提高深度神經網絡(DNNs)的魯棒性至關重要,這帶來了一個等同于最大化不可微的 0-1 損失函數的挑戰。然而,現有的單目標方法,即對抗攻擊,專注于替代損失函數,由于對多個損失函數的協同和沖突性質理解不足,未能充分利用使用多個損失函數的好處。為了克服這些限制,我們提出了基于多目標集合的攻擊(MOS Attack),這是一種新穎的對抗攻擊框架,利用多個損失函數并自動揭示它們之間的相互關系。MOS Attack 采用基于集合的多目標優化策略,能夠在不增加額外參數的情況下納入眾多損失函數。它還能自動挖掘各種損失之間的協同模式,有助于用更少的目標生成強大的對抗攻擊。大量實驗表明,我們的 MOS Attack 優于單目標攻擊。此外,通過利用已確定的協同模式,MOS Attack 在減少損失函數數量的情況下仍能繼續顯示出優越的結果。


攻擊鏈:視覺語言模型對基于遷移的對抗攻擊的魯棒性
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

論文鏈接

GitHub鏈接

摘要:預訓練視覺語言模型(VLMs)在圖像和自然語言理解方面表現出了卓越的性能,例如圖像字幕生成和響應生成。隨著視覺語言模型的實際應用越來越廣泛,其潛在的安全性和魯棒性問題引起了人們的擔憂,即對手可能會逃避系統,并通過惡意攻擊使這些模型生成有害內容。因此,評估開源 VLMs 對對抗性攻擊的魯棒性越來越受到關注,其中基于遷移的攻擊是一種具有代表性的黑盒攻擊策略。然而,大多數現有的基于遷移的攻擊忽略了視覺和文本模態之間語義相關性的重要性,導致對抗性樣本生成和攻擊性能欠佳。為了解決這個問題,我們提出了攻擊鏈(CoA),它通過一系列中間攻擊步驟,基于多模態語義更新迭代地增強對抗性樣本的生成,實現了卓越的對抗性可遷移性和效率。此外,我們還提出了一種統一的攻擊成功率計算方法用于自動逃避評估。在最現實和高風險的場景下進行的大量實驗表明,我們的攻擊策略可以僅使用黑盒攻擊而無需了解受害模型的任何信息,有效地誤導模型生成目標響應。我們論文中的綜合魯棒性評估提供了對 VLMs 漏洞的洞察,并為未來模型開發的安全考慮提供了參考。


基于對抗一致性蒸餾的即時對抗凈化
Instant Adversarial Purification with Adversarial Consistency Distillation

論文鏈接

GitHub鏈接

摘要:神經網絡盡管在包括圖像分類在內的廣泛應用中表現出色,但也容易受到細微的對抗性噪聲的影響。盡管已經提出了一些基于擴散的凈化方法,例如 DiffPure,但這些方法很耗時。在本文中,我們提出了一步控制凈化(One Step Control Purification,OSCP),這是一種基于擴散的凈化模型,可以在擴散模型的一次神經函數評估(Neural Function Evaluation,NFE)中凈化對抗性圖像。我們使用潛在一致性模型(Latent Consistency Model,LCM)和 ControlNet 進行一步凈化。與其他基于擴散的凈化方法相比,OSCP 在計算上更友好且時間效率更高;我們在 ImageNet 上實現了 74.19%的防御成功率,每次凈化僅需 0.1 秒。此外,一致性蒸餾和對抗性擾動之間存在根本的不一致性。為了解決這種本體上的不和諧,我們提出了高斯對抗性噪聲蒸餾(Gaussian Adversarial Noise Distillation,GAND),這是一種新穎的一致性蒸餾框架,有助于更細致地協調潛在空間動態,有效地彌合自然流形和對抗性流形之間的差距。我們的實驗表明,GAND 不需要完全微調(Full Fine Tune,FFT);參數高效微調(Parameter-Efficient Fine-Tuning,PEFT),例如 LoRA 就足夠了。


通過打破不可見替代梯度實現對脈沖神經網絡的有效且稀疏的對抗攻擊
Towards Effective and Sparse Adversarial Attack on Spiking Neural Networks via Breaking Invisible Surrogate Gradients

論文鏈接

GitHub鏈接

摘要:脈沖神經網絡(Spiking neural networks,SNNs)在處理低能耗的時空事件數據方面已顯示出其能力。與傳統的人工神經網絡(Artificial neural networks,ANNs)類似,SNNs 也容易受到基于梯度的對抗攻擊,其中梯度是通過時空反向傳播(spatial-temporal back-propagation,STBP)和替代梯度(surrogate gradients,SGs)計算得出的。然而,對于僅用于推理的模型,SGs 可能是不可見的,因為它們不影響推理結果,并且當前基于梯度的攻擊對于動態視覺傳感器(Dynamic vision sensor,DVS)捕獲的二進制動態圖像無效。雖然一些方法通過通用 SGs 解決了不可見 SGs 的問題,但它們的 SGs 與受害模型缺乏相關性,導致性能欠佳。此外,現有的基于 SNN 的二進制攻擊的不可感知性仍然不足。在本文中,我們引入了一種創新的潛在相關替代梯度(potential-dependent surrogate gradient,PDSG)方法,以在 SG 和模型之間建立強大的連接,從而提高具有不可見 SGs 的各種模型的對抗攻擊的適應性。此外,我們提出了稀疏動態攻擊(sparse dynamic attack,SDA)以有效地攻擊二進制動態圖像。利用生成-減少范式,SDA 可以充分優化對抗性擾動的稀疏性。實驗結果表明,我們的 PDSG 和 SDA 在各種模型和數據集上優于最先進的基于 SNN 的攻擊。具體而言,我們的 PDSG 在 ImageNet 上實現了 100%的攻擊成功率,我們的 SDA 通過僅修改 CIFAR10DVS 上 0.24%的像素獲得了 82%的攻擊成功率。


Prompt2Perturb(P2P):用于乳腺超聲圖像的基于文本引導擴散的對抗攻擊
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images

論文鏈接

GitHub鏈接

摘要:深度神經網絡(DNNs)在醫學影像中為改善乳腺癌診斷帶來了巨大希望。然而,這些模型極易受到對抗攻擊——微小、難以察覺的變化可能誤導分類器——這引發了對其可靠性和安全性的嚴重擔憂。傳統攻擊依賴于固定范數的擾動,與人類感知不一致。相比之下,基于擴散的攻擊需要預訓練模型,在這些模型不可用時需要大量數據,這在數據稀缺的情況下限制了其實際應用。然而,在醫學影像中,由于數據集的有限可用性,這通常是不可行的。基于可學習提示的最新進展,我們提出了 Prompt2Perturb(P2P),這是一種新穎的語言引導攻擊方法,能夠生成由文本指令驅動的有意義的攻擊示例。在提示學習階段,我們的方法利用文本編碼器中的可學習提示來創建微妙但有影響力的擾動,這些擾動在引導模型朝向目標結果的同時保持難以察覺。與當前基于提示學習的方法相比,我們的 P2P 通過直接更新文本嵌入而脫穎而出,避免了重新訓練擴散模型的需要。此外,我們利用僅優化早期反向擴散步驟可提高效率的發現,同時確保生成的對抗性示例包含微妙的噪聲,從而在不引入明顯偽影的情況下保持超聲圖像質量。我們表明,我們的方法在三個乳腺超聲數據集上的 FID 和 LPIPS 指標方面優于最先進的攻擊技術。此外,與現有的對抗攻擊相比,生成的圖像在外觀上更自然且更有效。


無聲品牌攻擊:文生圖擴散模型的無觸發數據投毒攻擊
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

論文鏈接

GitHub鏈接

摘要:文本到圖像擴散模型在根據文本提示生成高質量內容方面取得了顯著成功。然而,它們對公開可用數據的依賴以及用于微調的數據共享日益增長的趨勢使得這些模型特別容易受到數據投毒攻擊。在這項工作中,我們引入了無聲品牌攻擊,這是一種新穎的數據投毒方法,它操縱文本到圖像擴散模型以生成包含特定品牌標志或符號的圖像,而無需任何文本觸發。我們發現,當某些視覺模式在訓練數據中反復出現時,模型即使在沒有提示提及的情況下也會自然地在其輸出中重現它們。利用這一點,我們開發了一種自動化的數據投毒算法,該算法將標志不顯眼地注入原始圖像中,確保它們自然融合且不被檢測到。在這個被投毒的數據集上訓練的模型生成包含標志的圖像,而不會降低圖像質量或文本對齊。我們在大規模高質量圖像數據集和風格個性化數據集的兩種現實設置中對我們的無聲品牌攻擊進行了實驗驗證,即使沒有特定的文本觸發也能實現高成功率。人類評估和包括標志檢測在內的定量指標表明,我們的方法可以偷偷地嵌入標志。


FedMIA:一種在聯邦學習中利用“人人為我”原則的有效成員推理攻擊。
FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning

論文鏈接

GitHub鏈接

摘要:聯邦學習(Federated Learning,FL)是一種很有前景的方法,可在保護隱私的同時對分散的數據進行機器學習模型訓練。然而,隱私風險,特別是成員推理攻擊(Membership Inference Attacks,MIAs),其旨在確定特定數據點是否屬于目標客戶端的訓練集,仍然是一個重大問題。聯邦學習中現有的實現成員推理攻擊的方法主要分析來自目標客戶端的更新,重點關注諸如損失、梯度范數和梯度差等指標。但是,這些方法未能利用來自非目標客戶端的更新,可能未充分利用可用信息。在本文中,我們首先基于非目標客戶端的更新可能性制定了一個單尾似然比假設檢驗。在此基礎上,我們引入了一種三步成員推理攻擊(Membership Inference Attack,MIA)方法,稱為 FedMIA,它遵循“人人為我”原則——利用來自多個通信回合中所有客戶端的更新來提高成員推理攻擊的有效性。理論分析和大量實驗結果均表明,FedMIA 在分類和生成任務中均優于現有的成員推理攻擊。此外,它可以作為現有方法的擴展進行集成,并且對各種防御策略、非獨立同分布(Non-IID)數據和不同的聯邦結構具有魯棒性。


從域偏移角度重新審視針對大型視覺語言模型的后門攻擊
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift

論文鏈接

GitHub鏈接

摘要:指令微調增強了大型視覺語言模型(LVLMs),但由于其開放設計,增加了它們對后門攻擊的脆弱性。與先前在靜態設置下的研究不同,本文探索了在不匹配的訓練和測試域中對 LVLM 指令微調的后門攻擊。我們引入了一個新的評估維度,即后門域泛化,以評估在視覺和文本域偏移下攻擊的魯棒性。我們的發現揭示了兩個見解:(1)當獨特的觸發模式獨立于特定數據域或模型架構時,后門的泛化能力得到提高;(2)觸發模式與干凈語義區域之間的競爭交互,其中引導模型預測觸發可以增強攻擊的泛化能力。基于這些見解,我們提出了一種多模態歸因后門攻擊(MABA),它使用歸因解釋將與域無關的觸發注入關鍵區域。對 OpenFlamingo、Blip-2 和 Otter 的實驗表明,MABA 顯著將泛化攻擊成功率提高了 36.4%,在 0.2%的中毒率下實現了 97%的成功率。這項研究揭示了當前評估的局限性,并強調了增強的后門泛化能力如何對 LVLMs 構成安全威脅,即使在沒有測試數據訪問的情況下。


針對擴散模型語義水印的黑盒偽造攻擊
Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models

論文鏈接

GitHub鏈接

摘要:將水印集成到潛在擴散模型(LDMs)的生成過程中,簡化了生成內容的檢測和歸因。語義水印,如 Tree-Rings 和 Gaussian Shading,代表了一類新穎的水印技術,易于實現且對各種擾動具有高度魯棒性。然而,我們的工作揭示了語義水印的一個基本安全漏洞。我們表明,攻擊者可以利用不相關的模型,即使具有不同的潛在空間和架構(UNet 與 DiT),來進行強大而逼真的偽造攻擊。具體來說,我們設計了兩種水印偽造攻擊。第一種通過在不相關的 LDM 中操縱任意圖像的潛在表示以接近帶水印圖像的潛在表示,將目標水印印入真實圖像中。我們還表明,該技術可用于水印去除。第二種攻擊通過反轉帶水印的圖像并用任意提示重新生成它來生成帶有目標水印的新圖像。兩種攻擊都只需要一張帶有目標水印的參考圖像。總體而言,我們的發現通過揭示攻擊者在現實條件下可以輕松偽造或去除這些水印,對語義水印的適用性提出了質疑。


UIBDiffusion:擴散模型的通用不可察覺后門攻擊
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models

論文鏈接

GitHub鏈接

摘要:近期研究表明,擴散模型(DMs)易受后門攻擊。現有的后門攻擊采用不加掩飾的觸發器(例如,一個灰色盒子和眼鏡),這些觸發器包含明顯的模式,雖然能產生顯著的攻擊效果,但很容易被人類檢查和防御算法檢測到。雖然可以通過降低后門的強度來提高隱蔽性,但這樣做會大大損害其通用性和有效性。在本文中,我們提出了 UIBDiffusion,即擴散模型的通用不可察覺后門攻擊,它使我們能夠在逃避最先進的防御的同時實現卓越的攻擊和生成性能。我們提出了一種基于通用對抗性擾動(UAPs)的新穎觸發器生成方法,并揭示了這些最初為欺騙預訓練的判別模型而設計的擾動可以被調整為對 DMs 有效的強大的不可察覺后門觸發器。我們在各種數據集和目標上對具有不同類型采樣器的多種類型的 DMs 評估 UIBDiffusion。實驗結果表明,UIBDiffusion 具有三個優點:1)通用性,不可察覺的觸發器是通用的(即,與圖像和模型無關),其中單個觸發器對任何圖像和具有不同采樣器的所有擴散模型都有效;2)實用性,與先前的工作相比,在低毒害率下,它實現了相當的生成質量(例如,FID),甚至更好的攻擊成功率(即,ASR);3)不可檢測性,UIBDiffusion 對人類感知來說是合理的,并且可以繞過 Elijah 和 TERD,這是針對 DMs 后門的最先進防御。


利用特征微調混合改進遷移性目標性攻擊
Improving Transferable Targeted Attacks with Feature Tuning Mixup

論文鏈接

GitHub鏈接

摘要:深度神經網絡容易受到對抗樣本的攻擊,這些對抗樣本可以在不同模型之間遷移。一個特別具有挑戰性的問題是開發可遷移的目標性攻擊,這種攻擊可以誤導模型預測特定的目標類別。雖然已經提出了各種方法來提高攻擊的可遷移性,但它們往往會產生巨大的計算成本,同時改進有限。最近的干凈特征混合方法使用隨機的干凈特征來擾動特征空間,但缺乏針對破壞對抗樣本的優化,忽略了特定于攻擊的擾動的優勢。在本文中,我們提出了特征調諧混合(FTM),這是一種通過在特征空間中結合隨機噪聲和優化噪聲來提高目標性攻擊可遷移性的新方法。FTM 引入了可學習的特征擾動,并采用有效的隨機更新策略進行優化。這些可學習的擾動有助于生成更強大的對抗樣本,提高可遷移性。我們進一步證明,通過多個經過 FTM 擾動的代理模型的集成,可以提高攻擊性能。在與 ImageNet 兼容的數據集上對各種模型進行的大量實驗表明,我們的方法在保持低計算成本的同時,比最先進的方法有顯著的改進。


通過多輪一致性對聯邦學習的模型投毒攻擊
Model Poisoning Attacks to Federated Learning via Multi-Round Consistency

論文鏈接

GitHub鏈接

摘要:模型投毒攻擊是對聯邦學習(FL)的重大安全威脅。現有的模型投毒攻擊存在兩個關鍵局限性:1)在部署防御措施時,它們的有效性欠佳;2)它們需要了解真實客戶端上的模型更新或本地訓練數據。在這項工作中,我們做出了一個關鍵觀察,即它們的次優有效性源于僅在單個訓練輪次中利用惡意客戶端之間的模型更新一致性,使得攻擊效果在訓練輪次之間自我抵消。鑒于此觀察結果,我們提出了 PoisonedFL,它在惡意客戶端的模型更新之間強制實施多輪一致性,同時不需要關于真實客戶端的任何知識。我們在五個基準數據集上的實證評估表明,PoisonedFL 突破了八種最先進的防御措施,并優于七種現有的模型投毒攻擊。此外,我們還探索了針對 PoisonedFL 定制的新防御措施,但我們的結果表明,我們仍然可以調整 PoisonedFL 來突破它們。我們的研究表明,FL 系統的穩健性遠低于先前的預期,這凸顯了開發新防御機制的緊迫性。


針對大型視覺語言模型的自監督學習視覺編碼器中的隱形后門攻擊
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

論文鏈接

GitHub鏈接

摘要:自監督學習(SSL)視覺編碼器學習高質量的圖像表示,因此已成為開發大型視覺語言模型(LVLMs)視覺模態的重要組成部分。由于訓練此類編碼器的成本很高,預訓練的編碼器被廣泛共享并部署到許多對安全至關重要或具有社會意義的 LVLMs 中。在這種實際情況下,我們揭示了一種新的后門威脅,即僅通過破壞視覺編碼器就可以在這些 LVLMs 中引發顯著的視覺幻覺。由于這些編碼器的共享和重用,許多下游 LVLMs 可能從編碼器繼承后門行為,從而導致廣泛的后門。在這項工作中,我們提出了 BADVISION,這是第一種利用 LVLMs 的 SSL 視覺編碼器中的此漏洞的方法,采用了新穎的觸發優化和后門學習技術。我們在兩種類型的 SSL 編碼器和 LVLMs 上跨八個基準進行了 BADVISION 的評估。我們表明,BADVISION 有效地將 LVLMs 驅動到攻擊者選擇的幻覺,攻擊成功率超過 99%,同時在保持隱蔽性的情況下造成 77.6%的相對視覺理解誤差。最先進的后門檢測方法無法有效檢測到我們的攻擊。


黑暗中的內斗:聯邦學習中的多標簽后門攻擊
Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

論文鏈接

GitHub鏈接

摘要:聯邦學習(FL)是一種保護隱私的去中心化機器學習框架,已被證明容易受到后門攻擊。當前的研究主要集中在單標簽后門攻擊(SBA)上,其中攻擊者具有一致的目標。然而,一個關鍵事實被忽略了:攻擊者可能不合作,具有不同的目標,并獨立操作,這呈現出一種更實際的場景,稱為多標簽后門攻擊(MBA)。不幸的是,由于非合作攻擊者相互排斥,先前的工作在 MBA 場景中是無效的。在這項工作中,我們進行了深入的調查,以揭示這種排斥的內在限制:為不同的目標構建類似的后門映射,導致后門功能之間的沖突。為了解決這個限制,我們提出了 Mirage,這是聯邦學習中第一個非合作 MBA 策略,通過構建分布內(ID)后門映射,允許攻擊者在無需串通的情況下將有效且持久的后門注入到全局模型中。具體來說,我們引入了一種對抗適應方法,以 ID 方式橋接后門特征和目標分布。此外,我們還進一步利用一種約束優化方法,以確保 ID 映射在全局訓練動態中存活。廣泛的評估表明,Mirage 優于各種最先進的攻擊,并繞過現有的防御,實現平均攻擊成功率大于 97%,并在 900 輪后保持 90%以上。這項工作旨在提醒研究人員注意這種潛在威脅,并激發有效防御機制的設計。


無法阻擋我:針對邊緣設備的時延攻擊學習魯棒且硬件自適應的目標檢測器
Can't Slow me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge Devices

論文鏈接

GitHub鏈接

摘要:目標檢測是許多實時下游應用(如自動駕駛、增強現實和供應鏈管理)的基本推動因素。然而,神經網絡的算法骨干對系統輸入中難以察覺的擾動很脆弱,這些擾動通常被稱為錯誤分類攻擊。最近出現了一類新的時延攻擊,其針對實時處理能力。它們通過在后處理模塊中制造計算瓶頸,利用目標檢測器中的新攻擊面,導致級聯故障并使實時下游任務面臨風險。在這項工作中,我們通過對背景敏感的對抗訓練(也考慮底層硬件能力)對這種攻擊進行了初步嘗試防御。我們首先在異構 GPU 設備之間建立時延攻擊與硬件容量之間的系統級聯系。基于特定的對抗行為,我們將目標性損失用作代理,并將背景注意力構建到對抗訓練管道中,在干凈準確性和魯棒準確性之間實現合理平衡。大量實驗表明,在 Jetson Orin NX 上,將實時處理能力從 13 FPS 恢復到 43 FPS,證明了防御的有效性,并且在干凈準確性和魯棒準確性之間有更好的權衡。


NoPain:基于最優傳輸奇異邊界的無盒點云攻擊
NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

論文鏈接

GitHub鏈接

摘要:對抗攻擊利用深度模型對對抗樣本的脆弱性。現有的點云攻擊者是針對特定模型定制的,在白盒或黑盒設置下基于梯度迭代地優化擾動。盡管它們具有良好的攻擊性能,但由于過度擬合代理模型的特定參數,它們通常難以生成可遷移的對抗樣本。為了克服這個問題,我們將焦點轉移到數據分布本身,并引入一種名為 NoPain 的新方法,該方法利用最優傳輸(OT)來識別數據流形的固有奇異邊界,以進行跨網絡點云攻擊。具體來說,我們首先計算從噪聲到目標特征空間的 OT 映射,然后通過定位不可微位置來識別奇異邊界。最后,我們沿著奇異邊界采樣以生成對抗點云。一旦確定了奇異邊界,NoPain 可以高效地生成對抗樣本,而無需迭代更新或來自代理分類器的指導。大量實驗表明,所提出的端到端方法在可遷移性和效率方面均優于基線方法,并且即使在面對防御策略時也保持顯著優勢。


通過方向對齊檢查檢測聯邦學習中的后門攻擊
Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection

論文鏈接

GitHub鏈接

摘要:訓練的分布式特性使聯邦學習(FL)容易受到后門攻擊,在后門攻擊中,惡意的模型更新旨在損害全局模型在特定任務上的性能。現有的防御方法效果有限,因為它們忽略了良性和惡意模型更新在一般和細粒度方向上的不一致性。為了填補這一空白,我們引入了 AlignIns,這是一種旨在保護 FL 系統免受后門攻擊的新型防御方法。AlignIns 通過方向對齊檢查過程來研究每個模型更新的方向。具體來說,它檢查模型更新與整體更新方向的對齊情況,并分析其重要參數的符號分布,與所有模型更新中的主要符號進行比較。表現出異常程度對齊的模型更新被認為是惡意的,因此會被過濾掉。我們提供了 AlignIns 的魯棒性及其在聯邦學習中的傳播誤差的理論分析。我們在獨立同分布(IID)和非獨立同分布的數據集上的實證結果表明,與最先進的防御方法相比,AlignIns 實現了更高的魯棒性。


Edit Away and My Face Will not Stay:惡意生成編輯下的個人生物特征防御
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

論文鏈接

GitHub鏈接

摘要:擴散模型的最新進展使生成式圖像編輯比以往任何時候都更容易。雖然這些發展讓用戶能夠輕松地進行創造性編輯,但它們也引發了重大的倫理問題,特別是關于對人物肖像的惡意編輯,這威脅到個人的隱私和身份安全。現有的通用圖像保護方法主要側重于生成對抗性擾動來抵消編輯效果。然而,這些方法在防范各種編輯請求時往往表現出不穩定性。在這項工作中,我們為防止惡意編輯個人人物肖像引入了一種新穎的視角。與旨在阻止編輯生效的傳統方法不同,我們的方法 FACELOCK 優化對抗性擾動,以確保原始生物特征信息(如面部特征)在編輯后要么被破壞,要么被大幅改變,使得編輯輸出中的對象在生物特征上無法識別。我們的方法創新性地將人臉識別和視覺感知因素集成到擾動優化過程中,確保對各種編輯嘗試提供強大的保護。此外,我們揭示了圖像編輯中常用評估指標的幾個關鍵問題,并揭示了容易被操縱的作弊方法,從而導致對保護的欺騙性評估。通過廣泛的實驗,我們證明 FACELOCK 在防御各種惡意編輯方面的性能顯著優于所有基線。此外,我們的方法對凈化技術也表現出很強的魯棒性。全面的消融研究證實了我們的方法在各種基于擴散的編輯算法中的穩定性和廣泛適用性。我們的工作不僅推進了生物特征防御的最先進技術,還為圖像編輯中更安全和保護隱私的實踐奠定了基礎。


Saliuitl:基于集成顯著度引導恢復針對 CNN 的對抗圖塊
Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs

論文鏈接

GitHub鏈接

摘要:


在攻擊-防御博弈中重新思考多出口神經網絡的對抗魯棒性
Rethinking the Adversarial Robustness of Multi-Exit Neural Networks in an Attack-Defense Game

論文鏈接

GitHub鏈接

摘要:


通過前向傳播細化提高視覺Transformer的對抗可遷移性
Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement

論文鏈接

GitHub鏈接

摘要:


ProjAttacker:一種通過投影儀實現的用于人臉識別的可配置物理對抗攻擊
ProjAttacker: A Configurable Physical Adversarial Attack for Face Recognition via Projector | 對抗攻擊

論文鏈接

GitHub鏈接

摘要:


T-CIL:類增量學習中使用對抗性擾動進行溫度縮放校準。
T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

論文鏈接

GitHub鏈接

摘要:


一種統一、有適應性且可解釋的對抗性圖塊檢測器
A Unified, Resilient, and Explainable Adversarial Patch Detector

論文鏈接

GitHub鏈接

摘要:


PatchDEMUX:一種針對對抗性圖塊的多標簽分類器的可證明魯棒框架
PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

論文鏈接

GitHub鏈接

摘要:


A3:通過跨模態對抗特征對齊實現不可學習樣本的小樣本提示學習
A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

論文鏈接

GitHub鏈接

摘要:


利用單個模型訓練的 Checkpoint 增強對抗遷移性
Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

論文鏈接

GitHub鏈接

摘要:


R-TPT:通過測試時提示微調提高視覺語言模型的對抗魯棒性
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

論文鏈接

GitHub鏈接

摘要:


利用全局-局部協同對抗性擾動實現反定制化
Harnessing Global-local Collaborative Adversarial Perturbation for Anti-Customization

論文鏈接

GitHub鏈接

摘要:


從鄰近中獲益:通過對鄰近類別進行對抗性擾動提高野外模型的魯棒性
Gain from Neighbors: Boosting Model Robustness in the Wild via Adversarial Perturbations Toward Neighboring Classes

論文鏈接

GitHub鏈接

摘要:


通過假設空間增強提升對抗遷移性
Boosting Adversarial Transferability through Augmentation in Hypothesis Space

論文鏈接

GitHub鏈接

摘要:


沉默是金:在基于潛在擴散模型(LDM)的虛擬頭像生成中利用對抗樣本使音頻控制無效
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

論文鏈接

GitHub鏈接

摘要:


對抗領域提示微調與生成以實現單領域泛化
Adversarial Domain Prompt Tuning and Generation for Single Domain Generalization

論文鏈接

GitHub鏈接

摘要:


PatchGuard:通過視覺Transformer和偽異常實現具有對抗魯棒性的異常檢測與定位
PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

論文鏈接

GitHub鏈接

摘要:


視覺語言模型的零樣本對抗魯棒性:一種真正的零樣本且無需訓練的方法
On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free Approach

論文鏈接

GitHub鏈接

摘要:


RAEncoder:一種用于數據集知識產權保護的無標簽可逆對抗樣本編碼器
RAEncoder: A Label-Free Reversible Adversarial Examples Encoder for Dataset Intellectual Property Protection

論文鏈接

GitHub鏈接

摘要:


眼見未必為實:用于硬標簽三維場景攻擊的對抗性自然目標優化
Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene Attacks

論文鏈接

GitHub鏈接

摘要:


通過多樣化參數增強提高人臉識別中對抗攻擊的可遷移性
Improving the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters Augmentation

論文鏈接

GitHub鏈接

摘要:


提升 GNeRFs 的對抗魯棒性:IL2-NeRF 攻擊
Advancing Adversarial Robustness in GNeRFs: The IL2-NeRF Attack

論文鏈接

GitHub鏈接

摘要:


分身與對抗性漏洞
Doppelg?ngers and Adversarial Vulnerability

論文鏈接

GitHub鏈接

摘要:


“你的縮放因子是我的武器:通過縮放因子操縱對視覺 Transformer 進行目標性位翻轉攻擊”。
Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

論文鏈接

GitHub鏈接

摘要:


ACAttack:通過多模態響應解耦自適應交叉攻擊 RGB-T 跟蹤器
ACAttack: Adaptive Cross Attacking RGB-T Tracker via Multi-Modal Response Decoupling

論文鏈接

GitHub鏈接

摘要:


針對參數高效微調的梯度反轉攻擊
Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning

論文鏈接

GitHub鏈接

摘要:


具有任意擾動的圖神經網絡抗投毒攻擊的確定性認證
Deterministic Certification of Graph Neural Networks against Poisoning Attacks with Arbitrary Perturbations

論文鏈接

GitHub鏈接

摘要:


針對大規模圖像描述模型的基于方差的成員推理攻擊
Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning Models

論文鏈接

GitHub鏈接

摘要:


通過優化驅動的多幀擾動框架實現自動駕駛中的持久、高效且穩健的軌跡預測攻擊
Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework

論文鏈接

GitHub鏈接

摘要:


針對自監督學習的隱形后門攻擊
Invisible Backdoor Attack against Self-supervised Learning

論文鏈接

GitHub鏈接

摘要:


BadToken:針對多模態大語言模型的標記級后門攻擊
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models

論文鏈接

GitHub鏈接

摘要:


從頭到尾:通過長尾學習實現高效的黑盒模型逆向攻擊
From Head to Tail: Efficient Black-box Model Inversion Attack via Long-tailed Learning

論文鏈接

GitHub鏈接

摘要:


針對文生圖擴散模型的隱式偏差注入攻擊
Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

論文鏈接

GitHub鏈接

摘要:


兩個比一個好:高效的魯棒緊湊模型集成防御
Two is Better than One: Efficient Ensemble Defense for Robust and Compact Models

論文鏈接

GitHub鏈接

摘要:

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/74105.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/74105.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/74105.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PostgreSQL_數據回退,數據庫導出、導入

目錄 前置: 1 數據回退 1.1 代碼 1.2 pgAdmin4 中查看 1)t_daily 2) t_stock_daily 2 數據庫導出、導入 前置: 本博文是一個系列。在本人“數據庫專欄”-》“PostgreSQL_”開頭的博文。 1 數據回退 上一節“PostgreSQL_數據下載并…

golang單機鎖實現

1、鎖的概念引入 首先,為什么需要鎖? 在并發編程中,多個線程或進程可能同時訪問和修改同一個共享資源(例如變量、數據結構、文件)等,若不引入合適的同步機制,會引發以下問題: 數據競…

【HarmonyOS Next】鴻蒙應用實現彈框DialogHub詳解

【HarmonyOS Next】鴻蒙應用實現彈框DialogHub詳解 一、前言 鴻蒙中實現彈框目前官方提供openCustomDialog和CustomDialog兩種模式。推薦前者,詳情見下圖和官網文檔鏈接: https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V14/arkts-u…

機器學習算法實戰——天氣數據分析(主頁有源碼)

?個人主頁歡迎您的訪問 ?期待您的三連 ? ?個人主頁歡迎您的訪問 ?期待您的三連 ? ?個人主頁歡迎您的訪問 ?期待您的三連? ? ??? 1. 引言 天氣數據分析是氣象學和數據科學交叉領域的一個重要研究方向。隨著大數據技術的發展,氣象數據的采集、存儲和分…

輸電線路專業英語詞匯

輸電線路transmission line 雙回路double circuit 導線conductor 地線ground (Earth)wire 雙回路耐張塔double-circuit tension towers 直線塔tangent tower 地質Geological 水文Hydrological 塔位坐標Coordinate of Tower Location 轉角塔angle tower 直…

炫酷的3D按鈕效果實現 - CSS3高級特性應用

炫酷的3D按鈕效果實現 - CSS3高級特性應用 這里寫目錄標題 炫酷的3D按鈕效果實現 - CSS3高級特性應用項目介紹核心技術實現1. 基礎結構設計2. 視覺效果實現2.1 背景漸變2.2 立體感營造 3. 交互動效設計3.1 懸停效果3.2 按壓效果 技術要點分析1. 深度層次感2. 動畫過渡3. 性能優…

解決python配置文件類configparser.ConfigParser,插入、讀取數據,自動轉為小寫的問題

配置類 [Section1] Key_AAA Value[Section2] AnotherKey Value默認情況下,ConfigParser會將ini配置文件中的KEY,轉為小寫。 重載后配置類: 繼承類從configparser.ConfigParser改為configparser.RawConfigParser重載方法optionxform&#…

微服務的網關配置

微服務的網關配置 1. 網關路由 1.1 網關 1.1.1 存在問題 單體架構時我們只需要完成一次用戶登錄、身份校驗,就可以在所有業務中獲取到用戶信息。而微服務拆分后,每個微服務都獨立部署,這就存在一些問題:每個微服務都需要編寫身…

【硬核實戰】ETCD+AI智能調度深度整合!從架構設計到調優避坑,手把手教你打造高可用調度系統!

一、核心架構設計:ETCD如何賦能AI調度? 🔥 架構圖: [AI調度引擎] ← 實時數據 → [ETCD集群] ↓ 決策指令 [執行層(車輛/物流/交通設備)] 核心角色: ETCD:存儲調度策略、節點狀…

區間震蕩指標

區間震蕩指標的邏輯如下: 一、函數注解 1. Summation函數 功能: 計算給定價格序列Price的前Length個數據點的和,或在數據點數量超過Length時,計算滾動窗口內的價格和。 參數: Price(1):價格序列&#…

C語言-數組指針和指針數組

指針 數組指針與指針數組 數組指針 定義 概念:數組指針是指向數組的指針,本質上還是指針 特點: ①先有數組,后有指針 ②它指向的是一個完整的數組 一維數組指針 語法: 數據類型 (*指針變量名)[容量]; 案例&a…

31天Python入門——第5天:循環那些事兒

你好,我是安然無虞。 文章目錄 1. while循環1.1 while循環的嵌套1.2 補充學習:print函數 2. for循環2.1 range函數2.2 for循環2.3 continue和break以及return2.4 for循環的嵌套 3. 補充學習3.1 enumerate函數3.2 zip函數3.3 不要在遍歷列表的過程中刪除元素 循環 是…

T3 出行:網約車全棧分布式數據庫升級實踐

現今,網約車已成為民眾日常出行不可或缺的選擇。伴隨“互聯網出行”模式的快速推進,龐大的出行數據應運而生,如同構建了城市交通系統的數字神經脈絡。與此同時,對高效數據存儲與深入數據分析的需求也在持續攀升。 T3 出行于2019年…

區塊鏈技術在供應鏈管理中的應用與創新

在當今全球化的商業環境中,供應鏈管理的復雜性與日俱增。從原材料采購到最終產品交付,涉及眾多環節和參與者,信息的透明度、準確性和安全性至關重要。區塊鏈技術的出現,為供應鏈管理帶來了全新的解決方案,正在逐步改變…

藍橋每日打卡--打家劫舍4

#藍橋#JAVA#打家劫舍4 題目描述 沿街有一排連續的房屋。每間房屋內都藏有一定的現金。現在有一位小偷計劃從這些房屋中竊取現金。 由于相鄰的房屋裝有相互連通的防盜系統,所以小偷 不會竊取相鄰的房屋 。 小偷的 竊取能力 定義為他在竊取過程中能從單間房屋中竊…

c#難點整理

1.何為托管代碼,何為非托管代碼 托管代碼就是.net框架下的代碼 非托管代碼,就是非.net框架下的代碼 2.委托的關鍵知識點 將方法作為參數進行傳遞 3.多維數組 4.鋸齒數組 5.多播委托的使用 6.is運算符 相當于邏輯運算符是 7.as 起到轉換的作用 8.可…

Nginx代理本機的443到本機的8080端口

1. 準備工作 確認已生成 IP 的 HTTPS 證書 假設你已通過 mkcert 生成證書(如 192.168.199.191.pem 和 192.168.199.191-key.pem),并已安裝 CA 證書(運行過 mkcert -install)。 Nginx 安裝 ? 若未安裝 Nginx&#…

善用批處理的for命令倍增效率(附彩蛋:windows官方bug)

前言 在我們工作中,如果使用Windows系統,善用批處理命令,特別是在批量的文件處理,文本處理時能幫助我們極大地提升工作效率,起到事半功倍的效果! 但很多同學,對批處理的使用更多還停留在可以將多個command命令組合到一起執行,省去重復敲命令和等待的時間。這個其實只…

數據結構之棧的2種實現方式(順序棧+鏈棧,附帶C語言完整實現源碼)

對于邏輯關系為“一對一”的數據,除了用順序表和鏈表存儲外,還可以用棧結構存儲。 棧是一種“特殊”的線性存儲結構,它的特殊之處體現在以下兩個地方: 1、元素進棧和出棧的操作只能從一端完成,另一端是封閉的&#xf…

Camera2 API拍照失敗問題實錄:從錯誤碼到格式轉換的排坑之旅

一、問題背景 在開發基于Camera2 API的相機應用時,我們遇到了一個棘手的問題:預覽功能在所有設備上工作正常,但在某特定安卓設備上點擊拍照按鈕后無任何響應。值得注意的是,使用舊版Camera API時該設備可以正常拍照。本文記錄了完…