25年3月來自北京大學、UIC、廣東大亞灣大學、中科院計算機網絡信息中心、新加坡南陽理工、UCLA、西雅圖華盛頓大學、北京外經貿大學、喬治亞理工和騰訊優圖的論文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。
智體時代已經到來,大語言模型的革命性進步推動這一時代。大語言模型 (LLM) 智體具有目標驅動行為和動態適應能力,可能代表著通向通用人工智能的關鍵途徑。本研究通過以方法論為中心的分類法系統地解構 LLM 智體系統,將架構基礎、協作機制和演進途徑聯系起來。通過揭示智體設計原則與其在復雜環境中出現的行為之間的基本聯系來統一零散的研究線索。該工作提供統一的架構視角,研究了智體的構建方式、協作方式以及隨時間推移的演變方式,同時還解決評估方法、工具應用、實際挑戰和各種應用領域。
。。。。。。繼續。。。。。。
隨著 LLM 智體越來越多地融入社會的各個方面,它們帶來重大的現實世界挑戰,必須解決這些挑戰才能負責任地部署。如圖概述這些挑戰,分為三個主要領域:安全、隱私和社會影響。安全問題包括針對模型組件的以智體為中心威脅和污染輸入數據的以數據為中心威脅。隱私問題包括記憶漏洞和知識產權利用。除了技術問題之外,LLM 智體還提出了重要的道德考慮,并具有廣泛的社會影響,包括對社會的潛在利益和風險。理解這些挑戰對于開發健壯、值得信賴的智體系統至關重要。
以智體為中心的安全
以智體為中心的安全,旨在防御針對智體模型的不同類型攻擊,這些攻擊旨在操縱、篡改和竊取智體模型權重、架構和推理過程的關鍵組件。這些以智體為中心的攻擊可能導致智體系統內的性能下降、惡意操縱輸出和隱私泄露。Li [175] 分析了 LLM 智體在威脅行為者、目標、入口點等分類攻擊下的安全漏洞。他們還對某些流行的智體進行實驗,以證明它們的安全漏洞。智體安全基準 [176] 引入一個全面的框架,用于評估 10 種場景、10 種智體、400 多種工具、23 種攻擊/防御方法和 8 種指標中基于 LLM 智體的攻擊和防御,揭示當前 LLM 智體的重大漏洞和有限的防御效果。
對抗性攻擊與防御
對抗性攻擊旨在損害智體的可靠性,使其在特定任務中無效。Mo [177] 將對抗性攻擊分為三個部分,即感知、大腦和行動。AgentDojo [178] 提供一個評估框架,旨在通過在 97 個實際任務和 629 個安全測試用例上對 AI 智體進行測試來衡量其對抗性魯棒性。ARE [179] 評估對抗性攻擊下的多模態智體魯棒性。對于對抗性攻擊方法,CheatAgent [180] 使用基于 LLM 的智體來攻擊黑盒子 LLM 賦能的推薦系統,方法是確定最佳插入位置、生成對抗性擾動并通過迭代快速調整和反饋來改進攻擊。 GIGA [181] 引入可泛化的傳染性梯度攻擊,通過尋找能夠在不同上下文下很好地泛化的自傳播輸入,在多-智體、多-輪 LLM 賦能的系統中傳播對抗性輸入。對于對抗性攻擊的防御方法,LLAMOS [182] 引入一種對抗性攻擊的防御技術,即在輸入 LLM 之前,使用智體指令和防御指導對對抗性輸入進行凈化。Chern [183]?? 引入一種多智體辯論方法來降低智體對對抗性攻擊的敏感性。
越獄攻擊與防御
越獄攻擊試圖突破模型的保護,獲取未經授權的功能或信息。對于越獄攻擊方法,RLTA [184] 使用強化學習自動生成產生惡意提示的攻擊,觸發 LLM 智體越獄以產生特定輸出。這些可以適用于白盒和黑盒場景。Atlas [185] 使用突變智體和選擇智體越獄帶有安全過濾器的文本-到-圖像模型,并通過上下文學習和思維鏈技術進行增強。RLbreaker [186] 是一種黑盒越獄攻擊,使用深度強化學習將越獄建模為搜索問題,具有定制的獎勵函數和 PPO 算法。PathSeeker [187] 也使用多智體強化學習來指導較小的模型根據目標 LLM 的反饋修改輸入,并使用利用詞匯豐富度來削弱安全約束的獎勵機制。對于越獄防御方法,AutoDefense [188] 提出一個多智體防御框架,該框架使用具有專門角色的 LLM 智體協作過濾有害響應,有效抵御越獄攻擊。 Guardians [189] 使用三種檢查方法——逆向圖靈測試、多智體模擬和工具介導的對抗場景——來檢測惡意智體并應對越獄攻擊。ShieldLearner [190] 提出一種針對越獄攻擊的新型防御范式,通過反復試驗自主學習攻擊模式并綜合防御啟發式方法。
后門攻擊與防御
后門攻擊會植入特定的觸發器,導致模型在遇到這些觸發器時產生預設錯誤,同時在正常輸入下正常運行。對于后門攻擊方法,DemonAgent [191] 提出一種動態加密的多后門植入攻擊方法,通過使用動態加密將后門映射和分解為多個片段來逃避安全審計。Yang [192] 研究并實施針對基于 LLM 智體的多種形式后門攻擊,并通過在網絡購物和工具使用等任務上的實驗證明它們的脆弱性。 BadAgent [193] 攻擊基于 LLM 智體,通過特定輸入或環境線索作為后門觸發有害操作。BadJudge [194] 引入特定于 LLM-as-a-judge 智體系統的后門威脅,其中攻擊者操縱評估器模型來夸大惡意候選人的分數,在各個數據訪問級別上表現出顯著的分數膨脹。DarkMind [195] 是一種潛在的后門攻擊,它利用定制 LLM 智體的推理過程,在推理鏈中秘密改變結果,而無需在用戶輸入中注入觸發器。
模型協作攻擊與防御
模型協作攻擊,是一種新興的攻擊類型,主要針對多個模型協同工作的場景。在這種類型的攻擊中,攻擊者操縱多個模型之間的交互或協作機制來破壞系統的整體功能。對于模型協作攻擊方法,CORBA [196] 為 LLM 多智體系統引入了一種簡單的攻擊方法。它利用傳染和遞歸(這些很難通過對齊來緩解),從而破壞智體交互。AiTM [197] 通過使用具有反思機制的對抗智體攔截和操縱智體間消息,向 LLM 多智體系統引入一種攻擊方法。在防御方法方面,Netsafe [198] 確定影響多智體網絡抵御對抗攻擊安全性的關鍵安全現象和拓撲屬性。G-Safeguard [199] 也基于拓撲指導,并利用圖神經網絡檢測 LLM 多智體系統中的異常。Trustagent [200] 旨在在三個不同的規劃階段增強 LLM 智體框架的規劃安全性。PsySafe [201] 以智體心理學為基礎,通過分析黑暗人格特質、評估心理和行為安全以及制定風險緩解策略來識別、評估和減輕多智體系統中的安全風險。
下表總結以智體為中心的攻擊和防護方法:
數據中心的安全
數據中心攻擊的目的是污染LLM智體的輸入數據,最終導致不合理的工具調用、攻擊性輸出和資源耗盡等[202]。在數據中心攻擊中,LLM智體系統中的任何組件或默認參數都不允許被修改。根據數據類型,將攻擊分為外部數據攻擊和執行數據攻擊。下表總結相應的防御策略來應對這些智體攻擊:
外部數據攻擊與防御
用戶輸入偽造。修改用戶輸入是最直接和最廣泛使用的數據中心攻擊。這些注入[176]可能導致不受控制的危險輸出。雖然它很簡單,但它總是能達到最高的攻擊成功率(ASR)[176],[203]。Li [204]提出惡意前綴提示,例如“忽略文檔”。 InjectAgent [205] 和 Agentdojo [203] 是兩個即時注入基準測試,用于測試 LLM 智體中的單輪和多輪攻擊。隨著注入對用戶輸入的廣泛影響不斷增加,各種防御模型應運而生。Mantis [206] 通過反攻攻擊者自己的系統進行防御。[207] 提供一個稱為輸入防火墻的防御模塊,它從用戶的自然語言中提取關鍵點并將其轉換為結構化的 JSON 格式。RTBAS [208] 和 TaskShield [209] 檢查信息流和智體流程的每一步,包括函數調用和工具執行,以確保執行符合原始指令和意圖。在 ASB [176] 基準測試中,三明治防御策略添加額外的保護指令,幫助 LLM 智體忽略惡意注入。
黑暗心理指引。攻擊者可以在提示中進行暗黑心理引導,如用“欺騙”代替“關心”,用“背叛”代替“公平”,用“顛覆”代替“權威”,從而引導LLM智體變得具有攻擊性和反社會性,可能造成嚴重的社會影響。[210]提出“邪惡天才”來生成提示,讓智體進入特定的角色扮演狀態,并通過紅藍練習對提示進行優化。[201]將暗黑心理特質注入用戶輸入。為了防御暗黑心理注入,在智體系統中加入了醫生和警察智體[201],醫生智體進行心理評估,警察智體監督智體系統的安全,他們齊心協力,隨時守護健康心理。
外部源投毒。許多攻擊者關注基于RAG的LLM 智體,因為它們被證明比一般的基于記??憶的LLM智體更可靠[211]。攻擊者將毒害樣本注入知識庫[175],[212]。在此基礎上,間接提示注入(IPI)攻擊將惡意指令嵌入到其他外部知識源[213],如網站、支持文獻、電子郵件、在線BBS,從而操縱智體并使其偏離初衷。WIPI [214]通過公共網頁控制智體,間接毒害指令。[215]描述一種Foot-in-the-Door(FITD)攻擊,它從不顯眼的、不相關的請求開始,逐漸合并無害的請求。這種方法增加了智體執行后續操作的可能性,從而導致本可以避免的資源消耗。AgentPoison [216]是一種典型的紅隊工作,在知識密集型QA智體中取得了很高的成功率。[183]??采用多智體辯論進行防御,其中每個智體都充當域專家來驗證外部知識的真實性。
交互攻擊與防御
用戶與智體接口之間的交互。一些 LLM 智體將私有的用戶-智體交互存儲在用戶的計算機內存中,以提高對話性能。在這些交互過程中,LLM 智體通常對攻擊者來說是黑盒。[217] 是一種私有記憶提取攻擊,它會從存儲的記憶中聚合多個級別的知識。[218] 介紹一種發生在用戶與 LLM 智體之間接口的攻擊,它會從用戶那里索取信息。
LLM 智體之間的交互。在多智體 LLM 系統中,智體之間的交互頻繁且必不可少 [12]。攻擊者毒害單個智體,然后感染其他智體 [219]。這種遞歸攻擊最終會耗盡計算資源。AgentSmith [220] 得出結論,傳染性傳播的速度呈指數級增長。傳染性遞歸阻斷攻擊 (CORBA) [196] 旨在破壞智體之間的通信,使感染在整個通信網絡中傳播。[197] 基于對通信的語義理解,結合反思機制完成污染。[221] 將惡意指令注入一個智體,使它們能夠在智體網絡中自我復制,類似于計算機病毒的傳播。此外,[221] 開發一種標記(tagging)策略來控制感染傳播。為了在智體交互過程中防御拜占庭攻擊,BlockAgents [222] 引入一種基于區塊鏈和思維證明 (PoT) 技術的共識機制。對規劃過程貢獻最大的智體被授予記賬權。
智體與工具之間的交互。為了調用適當的工具,智體首先制定規劃,然后完成操作。智體與工具之間的交互很容易受到攻擊。一些攻擊者惡意修改規劃思路,從而改變智體動作。智體可能會調用不可信或有害的工具來完成任務,進一步造成意想不到的后果。AgentHarm [223] 在多步驟執行任務期間增加了有害的干擾。 InjectAgent [205] 在智體規劃過程中發起攻擊。多層智體防火墻 [207] 包含一個自我修正機制,稱為軌跡防火墻層,用于修正智體的偏離軌跡。此防火墻層驗證生成的響應以確保符合安全規則。
隱私
LLM 在多智系統中的廣泛使用也引發一些隱私問題。這些問題主要是由 LLM 的記憶容量引起的,這可能導致在對話或完成任務時泄露私人信息。此外,LLM 智體容易受到涉及模型和提示盜竊以及其他形式的知識產權盜竊的攻擊。
下表是隱私威脅和對策方法:
LLM 記憶漏洞
事實證明,LLM 能夠生成類似于人類的文本。然而,這種生成的文本可能是保留的訓練數據,這帶來了嚴重的隱私保護問題。這些風險在多智體系統中尤其嚴重,在協作解決復雜任務時,LLM 可能會泄露敏感信息。
數據提取攻擊。它們利用 LLM 的記憶容量從訓練數據中提取敏感信息。Carlini [224] 表明,攻擊者可以通過特定查詢從 GPT-2 模型中提取個人身份信息 (PII),例如姓名、電子郵件和電話號碼。數據提取的風險隨著模型大小、重復數據頻率和上下文長度的增加而增加 [225]。Huang [226] 進一步研究針對 GPT-neo 等預訓練 LLM 的數據提取攻擊,強調了此類攻擊在實際應用中的可行性。
成員推理攻擊。它們的目的是確定特定數據樣本是否是 LLM 訓練數據的一部分。Mireshghallah [227] 實證分析了微調 LLM 對成員推理攻擊的脆弱性,并發現微調模型頭使其更容易受到此類攻擊。 Fu [228] 提出一種基于概率變化的自校準成員推理攻擊方法,通過這些變化提供更可靠的成員信號。這種類型的攻擊在多智體系統中尤其危險,因為訓練數據可能來自多個敏感信息源。為了應對這些風險,已經開發差分隱私 (DP) 和知識蒸餾等保護策略 [229]、[230]。
屬性推理攻擊。屬性推理攻擊的目標是使用訓練數據推斷數據樣本的某個特征或特性。為了證實 LLM 中敏感屬性推理的存在,Pan [231] 對 LLM 中與屬性推理攻擊相關的隱私問題進行深入研究。Wang [232] 研究針對生成模型的屬性存在推理攻擊,發現大多數生成模型都容易受到此類攻擊。
保護措施。已經提出幾種保護策略來減少 LLM 記憶的機會。數據清理策略可以通過定位和消除訓練數據中的敏感信息來成功降低記憶風險 [233]。另一種減少隱私泄露的有效方法是在預訓練和微調期間將差分隱私噪聲引入模型梯度和訓練數據 [229]。知識蒸餾技術已成為一種直觀的隱私保護手段,它將知識從私人教師模型轉移到公共學生模型 [230]。此外,ProPILE 等隱私泄露檢測工具可以幫助服務提供商在部署 LLM 智體之前評估其 PII 泄露的程度 [234]。
LM 知識產權利用
LLM 智體容易受到記憶問題以及與知識產權 (IP) 相關的隱私風險的影響,例如模型盜竊和提示盜竊。這些攻擊利用 LLM 的經濟價值和信號,使個人和組織都面臨嚴重危險。
模型竊取攻擊。模型盜竊攻擊試圖通過查詢模型并觀察其響應來提取模型信息(例如參數或超參數)。 Krishna [235] 表明攻擊者可以通過多次查詢從 BERT 等語言模型中竊取信息,而無需訪問原始訓練數據。Naseh [236] 證明攻擊者可以以低成本竊取 LLM 解碼算法的類型和超參數。Li [237] 研究從 LLM 中提取專用代碼的可行性,強調了多智體系統中模型被盜的風險。為了應對這些攻擊,已經提出模型水印 [238] 和基于區塊鏈的 IP 身份驗證 [239] 等保護措施。
提示竊取攻擊。提示竊取攻擊涉及從可能具有重大商業價值的生成內容中推斷原始提示。Shen [240] 首次研究了針對文本-到-圖像生成模型的提示竊取攻擊,并提出了-一種名為 PromptStealer 的有效攻擊方法。Sha [241] 將這項研究擴展到 LLM,使用參數提取器來確定原始提示的屬性。Hui [242] 提出 PLEAK,這是一個閉箱提示提取框架,可通過優化對抗性查詢來提取 LLM 應用程序的系統提示。為了防止提示竊取,對抗性樣本已被提出作為一種有效的方法,通過對生成的內容進行干擾來阻止攻擊者推斷原始提示 [240]。
LLM 代理面臨的隱私挑戰是多方面的,從記憶威脅到與知識產權相關的風險。隨著 LLM 的不斷發展,必須開發強大的隱私保護技術來減輕這些隱私風險,同時確保 LLM 在多智能體系統中發揮有效作用。
社會影響和道德問題
LLM 智體對社會產生了深遠的影響,推動了自動化、工業創新和生產力提高。然而,道德問題仍然存在。下表總結了內容:
對社會的好處
LLM 智體對人類社會產生了重大影響,在各個領域提供了許多好處。
自動化增強。LLM 智體已應用于醫療保健、生物醫學、法律和教育等各個領域 [243]。通過自動化勞動密集型任務,它們可以減少時間成本并提高效率。例如,在醫療保健領域,它們有助于解釋臨床癥狀、解釋實驗室結果,甚至起草醫療文件。在法律和教育環境中,它們簡化了行政工作,生成摘要并提供即時的、上下文-覺察的響應 [243]–[245]。它們減輕重復性工作量的能力使專業人員能夠專注于更復雜、高風險的任務,最終提高各行業的生產力和可訪問性。
創造就業機會和勞動力轉型。雖然研究人員承認人工智能智體有可能取代人類工作并顛覆就業市場 [243],但另一些人認為,它們的進步將重塑勞動力需求 [246]。LLM 智體的興起正在改變就業市場,不僅擴大了機器學習工程師和數據科學家等技術角色,而且還推動了對人工智能項目經理和商業戰略家等管理職位的需求。鑒于其日益增長的經濟影響,政府被鼓勵支持以人工智能為重點的培訓計劃,以使個人適應這一不斷變化的形勢。與通常需要專業知識才能有效使用的 LLM 不同,LLM 智體專為可訪問性而設計,吸引了更廣泛的用戶群并實現了跨各個行業的更廣泛應用。因此,它們對社會的影響預計將超過 LLM 或其他 AI 模型,帶來挑戰和前所未有的機遇。
增強信息傳播。依賴大規模文本生成的企業(例如在線廣告)從 LLM 智體中受益匪淺。然而,它們的濫用越來越令人擔憂,特別是關于虛假新聞和錯誤信息的泛濫 [244],[245]。除了加速廣告分發外,增強信息傳播還能帶來更廣泛的社會效益。例如,全球缺乏耐心、經驗豐富、知識淵博的教師一直是一個挑戰。LLM 智體引入了變革性解決方案,例如智能在線輔導系統,徹底改變了教育的可及性 [247]。
道德問題
雖然 LLM 智體為社會帶來了許多好處,但它們也帶來了不容忽視的潛在風險。這些挑戰引發了重大的道德問題,包括決策偏見、錯誤信息傳播和隱私問題,凸顯了負責任的發展和監管的必要性。
偏見和歧視。LLM 智體天生就繼承訓練數據集中存在的偏見,甚至可能在學習過程中將其放大,導致輸出偏差并強化現有的刻板印象 [248]。認識到這個問題后,許多現有研究已經實施了緩解有害內容生成的策略。這些方法包括過濾敏感主題、應用強化學習和人工反饋,以及改進模型訓練過程以促進公平并減少偏見 [243]–[245]。追求公平已成為 LLM 智體研究的一個關鍵焦點,因為研究人員努力開發能夠最大程度減少偏見、促進包容性并確保在現實世界應用中符合道德 AI 部署的模型[249]–[250]。
問責制。盡管努力減輕 LLM 智體中的有毒內容,但有害輸出的風險仍然存在 [244]、[245]、[251]。問責制仍然是一項關鍵挑戰,因為記錄的數據集提供的監督有限,而大量未記錄的數據可以輕松集成到培訓中。盡管成本高昂,但嚴格的數據集記錄必不可少 [252]。此外,需要適當的治理框架來確保 LLM 智體的問責制 [253]、[254]。
版權。版權問題與隱私和問責制密切相關。一些人認為,人工智能應該遵守與人類相同的法律和道德標準,確保公平使用和知識產權保護 [250]。許多創作者反對用他們的作品來訓練可能取代他們的模型,但缺乏明確的規定和對數據日益增長的需求導致了廣泛的濫用 [255]。這個問題經常被低估,需要緊急關注,因為它威脅著人類創作者,增加了人工智能生成內容在某些領域相對于人類創作作品的普及率,并且有內容退化的風險,特別是當大型人工智能模型越來越多地接受人工智能生成的數據訓練時[256]。解決這些問題在使用 LLM 智體時尤為重要,因為用戶通常缺乏對訓練數據源的直接了解。這種不透明性增加了出現意想不到后果的風險,因為個人可能會在不知情情況下依賴于在有爭議的數據集上訓練的模型,從而可能導致聲譽損害甚至法律后果。
其他。使用 LLM 智體時的一些道德問題,例如隱私[243]、[257]、[258]、數據操縱[259]和錯誤信息[244]、[260],非常關鍵。除此之外,還有其他道德問題。一個主要問題是 LLM 智體缺乏真正的語義和上下文理解,僅僅依賴于統計詞語關聯。這一局限性經常被誤解和高估,導致過度依賴這些模型 [244],尤其是當它們的行為可能與人類意圖不太一致時 [261]。此外,人們擔心 LLM 智體會產生大量碳足跡,帶來環境挑戰 [262],同時訓練大型模型的計算成本也很高 [263]。
如表所示,LLM 智體的應用包括:
- 科學發現
- 游戲
- 社會科學
- 生產力工具
挑戰和方向包括:
- 可擴展性和協調性
- 記憶限制和長期適應性
- 可靠性和科學嚴謹性
- 多輪、多智體動態評估
- 安全部署的監管措施
- 角色扮演場景