一組研究人員成功研發出首個能夠通過電子郵件客戶端竊取數據、傳播惡意軟件以及向他人發送垃圾郵件的AI蠕蟲,并在使用流行的大規模語言模型(LLMs)的測試環境中展示了其按設計功能運作的能力。基于他們的研究成果,研究人員向生成式AI開發者提出警告,關注此類惡意編程可能帶來的潛在危險。研究團隊分享了研究論文并發布了一段視頻,展示如何通過兩種方法來竊取數據和影響其他電子郵件客戶端。
該蠕蟲由來自康奈爾科技學院的Ben Nassi、以色列理工學院的Stav Cohen以及英特爾公司的Ron Bitton共同創建,并將其命名為“Morris II”,以紀念1988年首次引發全球網絡問題的計算機蠕蟲“莫里斯”。這種蠕蟲專門針對生成式AI應用,甚至可以影響具備AI功能的郵件助手,利用諸如Gemini Pro、ChatGPT 4.0及LLaVA等AI模型生成文本和圖像。
蠕蟲的運行機制類似于越獄攻擊,利用對抗性自復制提示來對付其自身模型。研究人員通過構建一個包含這些生成式AI引擎的電子郵件系統,并利用文本形式或嵌入在圖像文件中的自復制提示進行演示。其中,文本提示會利用LLM從系統外部獲取額外數據,將這些數據發送至GPT-4或Gemini Pro以生成文本內容,從而突破GenAI服務的安全限制并成功竊取數據。而圖像提示方式則是將自復制提示編碼在圖像中,使得郵件助手將含有宣傳和濫用信息的消息轉發給所有人,進而感染新的郵件客戶端并將受感染郵件繼續轉發。在這兩個過程中,研究人員都能夠挖掘包括但不限于信用卡詳細信息和社會保障號碼在內的敏感信息。
即使在受控環境下,這種功能性的蠕蟲也證明了它已不再是理論上的威脅,而是需要嚴肅對待并采取有效解決方案的問題,一旦發現此類惡意提示就應立即部署防護措施。因此,類似這樣的研究論文被分享給了受影響的各方以及其他可模擬驗證的研究者。
針對這一情況,生成式AI領域的領軍企業給出了回應并計劃部署防御措施。如同所有負責任的研究人員那樣,該團隊將他們的發現報告給了Google和OpenAI。《連線》雜志就此聯系了這兩家公司,雖然Google拒絕就該研究發表評論,但OpenAI的發言人回應稱:“他們似乎找到了一種利用未經檢查或過濾的用戶輸入來利用提示注入類漏洞的方法。”同時,OpenAI保證正在使其系統更具韌性,并建議開發者應采用確保不與有害輸入打交道的方法。
鑒于此類方法能夠感染生成式AI應用程序并危及用戶系統,在PC、智能手機、汽車和電子郵件服務等領域廣泛應用AI和神經處理單元(NPUs)之際,這一發現顯得尤為關鍵。盡管在某些情況下,融入AI技術的固態硬盤(SSDs)能夠識別并消除勒索軟件,但在另一面,我們又面臨著能創造惡意軟件的蠕蟲和定制LLMs。
在此背景下,行業必須保持警惕并為每款面向公眾發布的基于genAI的產品準備好對抗措施或部署有效的解決方案。新的解決方案和創新可能會帶來新的問題。隨著此類研究在AI應用早期階段就揭示了這些問題,保護有可能造成危害的GenAI引擎已成為優先考慮事項。