論文閱讀:ACL 2024 Stealthy Attack on Large Language Model based Recommendation

總目錄 大模型相關研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2402.14836

https://www.doubao.com/chat/19815566713551106

在這里插入圖片描述

文章目錄

  • 速覽
  • 攻擊方法速覽
      • 一、攻擊核心目標與前提
        • 1. 核心目標
        • 2. 攻擊前提
      • 二、模型無關的簡單攻擊(Victim Model-Agnostic Attack)
        • 1. 基于正向詞插入的簡單攻擊(Trivial Attack with Word Insertion)
        • 2. 基于GPT的文本重寫攻擊(Re-writing with GPTs)
      • 三、黑盒文本攻擊(Black-Box Text Attacks)
        • 1. 黑盒攻擊的核心框架
        • 2. 4種具體黑盒攻擊方案
      • 四、攻擊方法的關鍵特性驗證
      • 五、攻擊的影響因素與局限性
        • 1. 影響攻擊效果的關鍵因素
        • 2. 局限性
  • 論文翻譯
    • 針對基于大型語言模型的推薦系統的隱蔽攻擊
    • 摘要
    • 1 引言

速覽

ACL 2024 | 大語言模型推薦系統的隱秘攻擊

該論文發表于 ACL 2024,聚焦于大語言模型(LLM)在推薦系統中的應用及其潛在的安全漏洞。隨著 LLM 的強大能力推動推薦系統的發展,其安全性問題卻常被忽視。研究者們發現,攻擊者僅需在測試階段修改項目文本內容,無需干擾模型訓練過程,就能顯著提升項目曝光率。這種攻擊方式極其隱秘,不會影響整體推薦性能,且文本修改細微,難以被用戶和平臺察覺。

論文通過在四個主流的 LLM 基推薦模型上進行實驗,驗證了該攻擊方法的有效性和隱蔽性。研究還探討了模型微調和項目熱度對攻擊的影響,以及攻擊在不同模型和任務間的遷移性。此外,論文提出了一種簡單的重寫防御策略,雖不能完全抵御文本攻擊,但能提供一定防御效果。

該研究揭示了 LLM 基推薦系統在文本內容上的安全漏洞,為未來保護這些系統提供了研究方向。隨著 LLM 在推薦領域的廣泛應用,如何增強其安全性成為亟待解決的問題。

攻擊方法速覽

這篇論文聚焦于基于大型語言模型(LLM)的推薦系統(RS)的安全性漏洞,提出了文本篡改攻擊范式——通過微調目標物品的文本內容(如標題、描述),在不干擾模型訓練過程的前提下提升物品曝光度,同時具備高隱蔽性。論文設計的攻擊方法可分為模型無關的簡單攻擊黑盒文本攻擊兩大類,以下是具體拆解:

一、攻擊核心目標與前提

1. 核心目標

在不影響推薦系統整體性能、不被用戶/平臺察覺的前提下,通過修改目標物品(如低質商品、虛假新聞)的文本內容,顯著提升其在推薦列表中的曝光率(Exposure)或用戶交互概率(Purchasing Propensity)。

2. 攻擊前提

基于LLM的推薦系統與傳統ID驅動型RS的核心差異——LLM-RS依賴文本的語義理解能力(如物品標題、用戶歷史行為的文本化表達),因此文本內容成為攻擊的關鍵突破口,無需像傳統“托攻擊(Shilling Attack)”那樣注入虛假用戶數據。

二、模型無關的簡單攻擊(Victim Model-Agnostic Attack)

這類方法無需了解推薦模型的內部參數或結構,僅通過基礎文本修改策略提升物品“吸引力”,操作簡單且易實施,包括兩種具體方案:

1. 基于正向詞插入的簡單攻擊(Trivial Attack with Word Insertion)
  • 核心邏輯:假設“正向詞匯”或“感嘆詞”能提升文本對LLM的吸引力,進而增加推薦概率。
  • 具體操作
    1. 構建一個預定義的正向詞庫,包含常見于商品標題的積極詞匯,如“good”“great”“best”“excellent”“!!!”等(共32個詞);
    2. 從詞庫中隨機選擇k個詞,插入到原始物品標題的末尾,確保文本整體連貫性(如將“Healthy Hair Cleansing Conditioner”改為“Healthy Hair Cleansing Conditioner best quality!!!”)。
  • 優缺點:優點是實現成本極低,不破壞文本核心語義;缺點是可能導致文本略顯生硬(如堆砌正向詞),部分場景下可能引發用戶懷疑。
2. 基于GPT的文本重寫攻擊(Re-writing with GPTs)
  • 核心邏輯:利用GPT的常識知識和生成能力,將原始標題重寫為“更具吸引力但不改變核心含義”的版本,解決簡單插入正向詞的“生硬問題”。
  • 具體操作
    1. 采用GPT-3.5-turbo作為生成模型,設計3類提示詞(Prompt)引導重寫,確保文本流暢性和吸引力:
      • Prompt 1(營銷視角):“作為促進商品銷售的營銷專家,將標題重寫為個詞,保留核心信息但更吸引客戶”;
      • Prompt 2(創意視角):“將基礎標題轉化為獨特、抓眼球的詞標題,提升關注度”;
      • Prompt 3(正向詞融合視角):“融入正向詞匯重寫標題,不改變原意且更吸引潛在用戶”;
    2. 限制重寫后的標題長度(),避免文本過長影響推薦模型處理。
  • 優缺點:優點是文本自然度高、隱蔽性強(用戶難以察覺修改);缺點是依賴外部大模型,且效果受提示詞設計影響較大。

三、黑盒文本攻擊(Black-Box Text Attacks)

這類方法是論文的核心創新,針對LLM-RS的文本依賴漏洞,通過“黑盒交互”(無需訪問模型參數/梯度,僅通過查詢模型輸出調整攻擊策略)生成對抗性文本,實現更高效的攻擊。論文基于經典黑盒文本攻擊框架(Morris et al., 2020),拆解為四大核心組件,并實現了4種具體攻擊方案。

1. 黑盒攻擊的核心框架

攻擊目標可通過數學公式定義為:
argmaxti′Eu∈U′fθ(Pu,i′)\underset{t_{i}'}{arg max } \mathbb{E}_{u \in \mathcal{U}'} f_{\theta}\left(\mathcal{P}_{u, i}'\right)ti?argmax?EuU?fθ?(Pu,i?)
其中,ti′t_i'ti?是修改后的目標物品文本,Pu,i′\mathcal{P}_{u,i}'Pu,i?是包含ti′t_i'ti?的推薦模型輸入提示(如用戶歷史文本+修改后物品文本),fθf_\thetafθ?是LLM推薦模型,目標是最大化用戶U′\mathcal{U}'Uti′t_i'ti?的推薦評分期望。

框架的四大組件分工如下:

組件核心作用論文實現細節
目標函數評估修改后文本的攻擊效果,指導搜索最優對抗文本以“目標物品曝光率提升幅度”或“用戶交互概率提升幅度”為核心指標,設置閾值(如0.05)判斷攻擊是否成功
約束條件確保修改后的文本“有效且隱蔽”,避免被檢測1. 語義一致性:原始文本與修改后文本的余弦相似度≥0.8;2. 詞性一致性:不改變核心詞的詞性;3. 長度約束:修改前后文本長度差異較小
文本變換生成可能的文本修改方案(即“擾動”)包括字符級變換(如替換字符、插入標點)和詞級變換(如同義詞替換、掩碼詞預測)
搜索方法迭代查詢模型,篩選最優擾動方案采用“基于詞重要性的貪心搜索(GreedyWordSwapWIR)”,優先修改對推薦結果影響大的詞
2. 4種具體黑盒攻擊方案

論文實現了字符級和詞級兩類攻擊,覆蓋不同修改粒度,具體差異如下表:

攻擊方法攻擊粒度核心變換策略特點
DeepwordBug字符級通過字符級擾動生成拼寫錯誤:1. 隨機刪除字符;2. 隨機插入字符;3. 相鄰字符交換;4. 隨機替換字符(如將“People”改為“ePople”)修改痕跡極細微(僅單個字符),隱蔽性強;無需外部詞庫支持
PuncAttack字符級在文本中插入特定標點符號(如“-”“'”),如將“Little People”改為“Little P-eople”或“Little Peo’ple”不破壞語義和詞形,用戶難以察覺;計算成本低
TextFooler詞級基于詞嵌入相似度替換同義詞:1. 計算原始詞的詞嵌入(如GloVe);2. 篩選相似度≥0.6的同義詞;3. 替換核心詞(如將“People”改為“Inhabitants”)攻擊效果強(曝光率提升幅度大);但依賴高質量詞嵌入,部分替換可能生硬
BertAttack詞級基于掩碼語言模型(BERT)預測替換詞:1. 將原始詞掩碼(如“Little [MASK]”);2. 選擇BERT預測概率Top48的詞作為替換候選;3. 篩選語義一致的詞替換替換詞更符合上下文邏輯,文本自然度高;但需查詢BERT模型,成本較高

四、攻擊方法的關鍵特性驗證

論文通過實驗驗證了攻擊方法的有效性隱蔽性,核心結論如下:

  1. 有效性:黑盒攻擊的曝光率提升幅度遠超傳統托攻擊(Shilling Attack)——如TextFooler在Beauty數據集上使目標物品曝光率提升520.4%,而傳統Bandwagon攻擊僅提升約1%;
  2. 隱蔽性
    • 對推薦系統整體性能無影響:攻擊后模型的NDCG@10、Recall@10等指標與“無攻擊”狀態幾乎一致(差異≤0.5%);
    • 文本質量高:修改后文本與原始文本的余弦語義相似度≥0.6,GPT-Neo評估的流暢度(Perplexity)接近原始文本;
    • 修改量少:平均僅修改2-4個詞(或字符),用戶難以察覺。

五、攻擊的影響因素與局限性

1. 影響攻擊效果的關鍵因素
  • 模型微調狀態:零-shot的LLM-RS(未在目標數據集上微調)比微調后的模型更易受攻擊——微調模型需更多查詢次數(平均增加30%),且曝光率提升幅度降低20%-40%;
  • 物品流行度:高流行度物品更易被攻擊——高流行度物品的曝光率提升幅度比低流行度物品高30%-50%,且所需查詢次數更少(平均減少15%);
  • 跨模型/跨任務遷移性
    • 跨任務遷移:攻擊“直接推薦任務”生成的對抗文本,可遷移到“評分預測任務”(如P5模型),曝光率提升幅度保持80%以上;
    • 跨模型遷移:僅在相同 backbone 的模型間可遷移(如基于LLaMA的TALLRec和CoLLM),不同backbone(如Longformer的RecFormer)間無遷移性。
2. 局限性
  • 黑盒查詢依賴:黑盒攻擊需多次查詢推薦模型(如BertAttack平均需140次查詢),在大規模工業級推薦系統中可能觸發頻率限制;
  • 僅針對文本模態:當前攻擊僅修改文本內容,未涉及圖像、視頻等其他模態(如商品圖片),實際場景中多模態推薦系統可能降低攻擊效果;
  • 部分防御可緩解:基于GPT的文本重寫防御(如修正拼寫錯誤、刪除多余標點)可有效抵御字符級攻擊(如DeepwordBug、PuncAttack),但對詞級攻擊(如TextFooler)防御效果有限。

綜上,論文提出的文本篡改攻擊范式,通過“微調文本+黑盒交互”精準利用LLM-RS的文本依賴漏洞,兼具高效性和隱蔽性,為LLM推薦系統的安全防護提供了關鍵研究方向。

論文翻譯

針對基于大型語言模型的推薦系統的隱蔽攻擊

摘要

近年來,功能強大的大型語言模型(LLM)在推動推薦系統(RS)發展方面發揮了重要作用。然而,盡管這些系統蓬勃發展,其在安全威脅面前的脆弱性卻在很大程度上被忽視。在本研究中,我們發現,將大型語言模型引入推薦模型會帶來新的安全漏洞,這一問題源于模型對物品文本內容的重視。我們證明,攻擊者只需在測試階段修改目標物品的文本內容,無需直接干擾模型的訓練過程,就能顯著提高該物品的曝光率。此外,這種攻擊具有顯著的隱蔽性——它不會影響推薦系統的整體性能,且對文本的修改十分細微,使用戶和平臺難以察覺。我們在四種主流的基于大型語言模型的推薦模型上開展了全面實驗,結果表明我們提出的攻擊方法具有出色的有效性和隱蔽性。本研究揭示了基于大型語言模型的推薦系統中一個重要的安全缺口,為未來保護這類系統的相關研究奠定了基礎。

1 引言

在過去幾十年里,推薦系統(RS)在各個領域都獲得了重要地位。近年來,功能強大的大型語言模型(LLM)在推動推薦系統發展方面發揮了關鍵作用,針對推薦任務定制大型語言模型的研究關注度顯著上升。

傳統推薦模型嚴重依賴抽象且可解釋性較低的基于ID的信息,與之不同的是,基于大型語言模型的推薦模型充分利用了大型語言模型的語義理解能力和強大的遷移能力。這種方法更加注重物品的文本內容,例如物品標題和描述(Lin等人,2023a;Chen等人,2023)。例如,許多研究者(Hou等人,2022,2023a;Yuan等人,2023;Li等人,2023a;Yang等人,2023;Geng等人,2022;Cui等人,2022;Bao等人,2023a;Zhang等人,2023b;Li等人,2023b;Zhang等人,2023c)已嘗試從語言角度對用戶偏好和物品特征進行建模。這種方法能夠對新物品和新數據集實現泛化,有望為傳統推薦范式帶來革命性變革。

盡管取得了這些進展,推薦系統的安全性仍是一個在很大程度上未得到解決的問題。對這類系統的惡意攻擊可能導致不良后果,例如在電子商務平臺中不當推廣低質量產品,或在新聞傳播場景中擴散虛假信息。針對推薦系統的傳統托攻擊(shilling attack)策略(Wang等人,2023a,2024c)通常會生成虛假用戶,這些虛假用戶被設定為對特定目標物品給出高分評價。通過注入此類欺詐數據,攻擊者旨在影響推薦模型的訓練,進而提高目標物品的曝光率。

然而,將大型語言模型引入推薦模型會帶來新的安全漏洞。在本文中,據我們所知,我們首次證明,由于對物品文本內容的重視,基于大型語言模型的推薦系統具有更高的脆弱性。我們發現,攻擊者只需在測試階段采用簡單的啟發式重寫或黑盒文本攻擊策略(Morris等人,2020)修改物品的文本內容,就能顯著提高該物品的曝光率。與傳統托攻擊相比,這種攻擊范式具有顯著的隱蔽性——它無需影響模型訓練,且推薦系統的整體性能幾乎不受影響。此外,對物品標題的修改十分細微,使用戶和平臺難以察覺。

為了驗證文本攻擊范式相較于傳統托攻擊(Burke等人,2005b;Kaur和Goel,2016;Lin等人,2020)所具備的出色有效性和隱蔽性,我們以四種主流的基于大型語言模型的推薦模型(Geng等人,2022;Bao等人,2023a;Li等人,2023a;Zhang等人,2023c)作為攻擊目標模型,開展了全面實驗。我們進一步深入研究了模型微調程度和物品流行度對攻擊效果的影響,同時還探究了該攻擊在不同目標模型和推薦任務間的遷移能力,以證明其在實際場景中的適用性和實用性。最后,我們評估了一種簡單的重寫防御策略,該策略在一定程度上能夠緩解上述安全問題。

綜上所述,本研究的貢獻如下:

  1. 我們指出,基于大型語言模型的推薦模型由于對文本內容信息的重視,可能會引發此前被忽視的安全問題。
  2. 據我們所知,我們是首個針對基于大型語言模型的推薦模型發起攻擊的研究團隊,并提出通過文本攻擊來提高目標物品的曝光率。
  3. 我們開展了大量實驗,以證明文本攻擊范式的有效性和隱蔽性。進一步的實驗還揭示了物品流行度和模型微調程度對攻擊效果的影響,并探究了攻擊的遷移能力。
  4. 最后,我們提出了一種簡單的重寫防御策略。該策略雖無法完全抵御基于文本的攻擊,但能提供一定程度的防護,為未來相關研究提供參考。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/921889.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/921889.shtml
英文地址,請注明出處:http://en.pswp.cn/news/921889.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

自動駕駛中的傳感器技術43——Radar(4)

本文對目前毫米波雷達中的天線設計進行比較全面的羅列,并進行簡單的設計評述 1、實際設計案例 圖1 涵蓋能寬窄覆蓋的天線設計(無俯仰分辨率)圖2 Bosch前雷達的天線設計(有俯仰的分辨率但比較弱,也涵蓋了擴展覆蓋&…

使用反轉法線材質球,實現切換天空盒相同的功能,優點:包體變小

切換天空盒第一步先把SKY 天空球資源導入到工程里, 第二步:天空球文件下的SKY預制件拖入到場景里 第三步 選著SKY材質球,拖入自己的全景圖片(圖片分辨率不能超過5000*5000,否則手機無法顯示) 如果并沒有效果,看看圖…

真正有效的數據指標體系應該長什么樣?

真正有效的數據指標體系應該長什么樣?為什么大多數企業的指標體系都是"花架子"?真正有效的指標體系應該長什么樣?從數據到洞察:讓指標真正"活"起來結語在這個人人都在談數字化轉型的時代,企業就像…

分布式專題——6 Redis緩存設計與性能優化

1 多級緩存架構2 緩存設計 2.1 緩存穿透 2.1.1 簡介緩存穿透是什么?當查詢一個根本不存在的數據時,緩存層和存儲層都不會命中。正常邏輯下,存儲層查不到數據就不會寫入緩存層。這會導致:每次請求這個不存在的數據,都要…

一文了解大模型壓縮與部署

一文了解大模型壓縮與部署:從 INT4 量化到 MoE,讓大模型跑在手機、邊緣設備和云端🎯 為什么需要模型壓縮與部署?你訓練了一個強大的大模型(如 Qwen-72B、LLaMA-3-70B),但在部署時發現&#xff1…

新手向:中文語言識別的進化之路

自然語言處理(NLP)技術正在以前所未有的速度改變我們與機器的交互方式。根據Gartner最新報告顯示,全球NLP市場規模預計在2025年將達到430億美元,年復合增長率高達21%。而中文作為世界上使用人數最多的語言(全球約15億使…

LeetCode100-206反轉鏈表

本文基于各個大佬的文章上點關注下點贊,明天一定更燦爛!前言Python基礎好像會了又好像沒會,所有我直接開始刷leetcode一邊抄樣例代碼一邊學習吧。本系列文章用來記錄學習中的思考,寫給自己看的,也歡迎大家在評論區指導…

uniapp開源多商戶小程序商城平臺源碼 支持二次開發+永久免費升級

在電商行業競爭日益激烈的今天,擁有一個功能強大、靈活可拓展的多商戶小程序商城至關重要。今天給大家分享一款 uniapp 開源多商戶小程序商城平臺源碼,它不僅具備豐富的基礎功能,還支持二次開發,更能享受永久免費升級服務&#xf…

使用腳本一鍵更新NTP服務器地址為自定義地址

【使用場景】 在銀河麒麟桌面操作系統V10SP1-2303版本中使用腳本一鍵修改NTP服務器地址為自定義地址。 【操作步驟】 步驟1. 編寫shell腳本 ```bash desktop2303@desktop2303-pc:~$ vim setntptimeserver.sh #!/bin/bashfunction modifykylinconf() { # 檢查是否已存在目標配置…

linux內核 - 內核架構概覽

當 Linux 系統啟動時,內核會在啟動過程的早期階段接管控制——緊跟在固件(BIOS 或 UEFI)和引導加載程序完成任務之后。此時,壓縮的 Linux 內核鏡像會被加載到內存中,通常會附帶一個稱為 initramfs 的最小臨時根文件系統,它用于在切換到真實根文件系統并繼續系統初始化之前…

[react] react-router-dom是啥?

頁面路由,注意頁面路由不是路由器,因為我之前總是把路由和路由器搞混。而且我總是把前端頁面的路由和路由器的路由搞混。那么這里一定要明白,這里我所說的頁面路由就是指在瀏覽器里面的導航路由。 npm create vitelatest my-react-app – --t…

HTTP簡易客戶端實現

🌐 HTTP簡易客戶端實現 流程圖: 引用: chnroutes2.cpp#L474 chnroutes2_getiplist() chnroutes2.cpp#L443 http_easy_get(…) 🕒 1. 超時管理機制 (http_easy_timeout) 🔹 核心功能:創建定時器自動關…

建筑面LAS點云高度計算工具

效果 例如中位數,計算后,在shp建筑面中添加一個字段meidian_hei 準備數據 1、建筑矢量面.shp 2、點云.las 界面 腳本 import laspy import shapefile # pyshp庫,處理POLYGONZ坐標格式異常 import pandas as pd import numpy as np import os import traceback # 打印…

java day18

繼續學習,學習sringboot案例;熟悉的三件套;比如做一個表,前端搭建好框架,然后返回給后端一個請求,說要這個表的數據吧;然后通過請求和規定的格式返回給后端之后,我們后端進行接收處理…

并發編程原理與實戰(二十八)深入無鎖并發演進,AtomicInteger核心API詳解與典型場景舉例

無鎖并發演進背景 隨著系統高并發的壓力越來越大,傳統同步機制在高并發場景下的性能瓶頸和缺點可能會逐漸顯露: (1)性能損耗:synchronized等鎖機制會導致線程阻塞和上下文切換,在高并發場景下性能損耗顯著。…

整體設計 之 緒 思維導圖引擎 之 引 認知系統 之 引 認知系統 之 序 認知元架構 之5 : Class 的uml profile(豆包助手 之7)

摘要(AI生成)三層中間件架構的約束邏輯體系1. 架構定位與功能分工三個中間層(隔離層/隱藏層/防腐層)構成數據處理管道,分別承擔:隔離層:跨系統數據轉換處理對象:異構數據&#xff08…

iframe引入界面有el-date-picker日期框,點擊出現閃退問題處理

前言:iframe引入界面有el-date-picker日期框,點擊出現閃退問題處理。問題情況:點擊開始日期的輸入部分,會出現閃退情況,該組件是iframe調用的內容問題分析:事件冒泡,點擊與聚焦的時候&#xff0…

docker 拉取本地鏡像

要在Docker中拉取本地鏡像,通常有以下幾種實現方法: 使用docker pull命令:可以使用docker pull命令從本地鏡像倉庫拉取鏡像。例如,如果本地鏡像的名稱是my-image,則可以運行以下命令拉取鏡像: docker pull …

嘉立創EDA從原理圖框選住器件進行PCB布局

1、先選中需要布局的模塊的相關器件2、設計-》布局傳遞3、在PCB會選中模塊相關的元器件,拖動進行布局4、依次將每個模塊都分類出來5、板框設計:如果有要求大小,可以先將單位設置為mm,然后畫出來板框的尺寸

http接口冪等性

實現 HTTP 接口的冪等性是確保多次相同請求產生相同結果的重要設計原則,尤其在網絡不穩定或分布式系統中非常關鍵。以下是幾種常見的實現方式:1. 基于冪等性令牌(Token)的實現適合支付、訂單創建等場景,步驟如下&#…