網安加·百家講壇 | 劉志誠：AI安全風險與未來展望

作者簡介：劉志誠，樂信集團信息安全中心總監、OWASP廣東區域負責人、網安加社區特聘專家。專注于企業數字化過程中網絡空間安全風險治理，對大數據、人工智能、區塊鏈等新技術在金融風險治理領域的應用，以及新技術帶來的技術風險治理方面擁有豐富的理論和相關經驗。

背景：人工智能安全——一個日益凸顯的復雜議題

人工智能（AI）技術正以前所未有的速度滲透到社會生產生活的各個方面，從提升效率到驅動創新，其潛力巨大。

然而，伴隨著AI能力的飛速發展，其潛在的安全風險也日益成為全球關注的焦點。“人工智能安全”這一概念本身就具有多重含義，通常可以從以下幾個維度理解：

人工智能安全的三重含義

1. AI系統自身的網絡安全(Security of AI - Infrastructure)

指AI系統在開發、部署和運營過程中，因存在安全漏洞而被攻擊、利用，導致系統的機密性、完整性、可用性受到破壞。這更偏向傳統網絡安全視角，將AI視為需要保護的信息基礎設施。

2. AI引發的廣義安全風險(Safety of AI - Inherent Risks)

指AI技術本身及其應用可能帶來的固有風險，包括數據驅動的風險、算法與模型風險、生成與對齊風險、應用與集成風險等。

3. 面向安全領域的人工智能應用(AI for Security)

指利用AI技術（如機器學習、深度學習、大語言模型）來提升網絡防御能力，例如用于威脅檢測、態勢感知、安全策略優化等。

本文將重點關注前兩種含義，即AI系統自身的安全防護以及AI技術固有和衍生的安全風險。

當前研究熱點與焦點領域

當前，全球范圍內對人工智能安全的研究高度活躍，主要聚焦于以下幾個方面：

??生成式AI的安全問題：作為當前熱點，其魯棒性、可靠性、可解釋性、公平性、偏見、隱私保護、倫理治理以及在關鍵基礎設施中的應用安全尤為突出。

? 可信人工智能：重點研究如何構建和評估可信賴的AI系統，特別是大型語言模型（LLM），包括提高透明度、增強可解釋性、進行可信評估與測試。

??對抗性機器學習：研究AI模型如何抵御惡意制作的輸入（對抗樣本）或其他旨在欺騙或破壞模型性能的攻擊，并開發相應的防御策略。

??數據安全與隱私保護：在AI全生命周期中，如何對數據進行分類、脫敏、保護，防止訓練數據泄露敏感信息，尤其是在高質量公共數據趨于枯竭的情況下。

??AI倫理與治理：制定相應的法律法規、倫理準則、技術標準，平衡AI發展與安全，防范誤用濫用，推動負責任的AI創新。

??AI Agent安全：隨著AI Agent（智能體）技術的發展，其在感知、決策、行動環節可能帶來的新風險，以及如何對其進行有效治理成為新議題。

人工智能安全風險分類

其他重要風險類型

1. 濫用與誤用風險(Abuse & Misuse Risk)

AI技術可能被有意（濫用）或無意（誤用）地用于有害目的，如生成虛假信息、進行網絡攻擊、侵犯版權等。

2. 失控風險(Loss of Control Risk)

AI系統行為和影響超出預期范圍，在極端情況下可能帶來災難性后果。當前缺乏有效管控高級AI的技術手段。

3. 侵權與責任風險(Infringement & Liability Risk)

AI應用可能侵犯人權或知識產權，且責任界定困難。確定何時由人承擔責任，何時由AI提供者或使用者負責成為挑戰。

4.社會經濟風險(Socioeconomic Risk)

AI對就業市場、社會不平等、信息生態的影響，可能導致技能貶值、失業增加、不平等加劇和信息泡沫等問題。

綜合分析：安全風險的理論研究與實踐案例

綜合當前人工智能安全領域的研究動態和實踐案例，我們可以看到各類風險在不同維度上的復雜交織，以及學界和產業界提出的應對方案。

數據風險的深層次分析

理論研究

研究表明，AI模型訓練數據源自現實世界，不可避免地會學習和復制甚至放大社會中存在的偏見和歧視。算法可能無意中將特定群體與負面信息關聯，這是數據和算法交互的結果。

在Scale Of Law規律下，高質量公共數據的稀缺性使得包含敏感信息的數據集使用增加，加劇了隱私泄露和商業侵權風險。

實踐案例

多個案例顯示AI在招聘、司法、金融服務、教育和內容生成等領域產生歧視性結果。

例如，個性化定價可能演變成價格歧視，政府數據治理中嵌入AI也可能因數據片面性導致算法歧視。員工使用生成式AI時無意輸入敏感信息，導致數據泄露。醫療領域、智能設備和政府數據管理是數據泄露的高風險場景。

應對策略

針對上述風險，研究者和從業者提出了多種應對策略：通過數據清洗、平衡和人工審查等手段在數據階段實現對齊；加密、強認證、訪問控制和安全審計等措施加強數據保護；確保訓練數據真實、準確、客觀、多樣且來源合法，并建立數據治理框架；遵守相關法規并進行合規審計。

算法與對齊風險的關鍵洞察

核心問題

算法風險和對齊風險有著密切的關聯。算法作為AI的核心驅動力，其設計或實施中的錯誤、固有缺陷和“黑箱”特性，直接影響對齊質量。

同時，基于概率的輸出機制和提示詞工程的不確定性，使得模型輸出的準確性、真實性和有效性無法得到完全保證。

典型表現

“幻覺”是對齊問題的典型表現，指AI生成看似合理但與事實不符或無法驗證的內容。

研究發現，除了明顯的幻覺，還存在“正確的廢話”現象——輸出在形式上符合語法和基本邏輯，但實際上缺乏實質內容和價值。這種表面合理但實質空洞的輸出比明顯錯誤更危險，因為它更難被識別。

前沿解決方案

當前前沿的解決方案包括提升算法的可解釋性、進行安全測試和風險評估；通過檢索增強生成（RAG）提高輸出的事實準確性；應用人類反饋強化學習（RLHF）改進AI行為；開發價值觀對齊方法，為AI植入道德指南針。然而，這些方法仍在發展中，其有效性有待進一步驗證。

集成風險與多Agent協作的未知領域

復雜度轉移

集成風險揭示了一個極具洞察力的現象：多Agent協作系統通過降低開發難度，表面上簡化了復雜任務，但實際上是將復雜度從開發環節轉移到了模型自動化和集成環節。這種“復雜度轉移”而非“復雜度消除”的現象，創造了一種新的風險類型。

系統級風險

MCP、A2A等協議使多Agent自動化協作成為可能，依賴于復雜的感知、決策、分解、應用和集成模式。但這種依賴未知復雜度的協作機制引入了系統級風險：當各個Agent基于自身決策進行協作時，可能產生個體層面難以預測的涌現行為，增加了整體系統的不確定性。

研究與應用

作戰系統、教育、電網仿真等領域正在探索Agent應用。研究表明，多Agent系統在提高效率的同時也增加了復雜性和風險。業界正在開發如多智能體框架（OWL）和模型上下文協議（MCP）等規范，旨在降低風險。然而，Agent的量化評估（實用性、社會性、價值觀）仍具有重大挑戰性。

綜合以上分析，我們可以看到人工智能安全風險呈現出幾個關鍵特征：

??多維交織性：各類風險并非孤立存在，而是相互影響、彼此強化。

??內在不確定性：AI系統的復雜性使得許多風險難以完全預測和評估。

??動態演化性：風險隨著技術發展和應用場景拓展不斷變化

??治理滯后性：現有的評估框架和治理機制難以跟上技術發展速度。

創新洞察：人工智能安全的范式轉變

基于上述風險分析和挑戰，我們提出以下關于人工智能安全的創新洞察和未來發展路徑：

安全融合視角的創新突破

通過區分傳統的“Security”（系統網絡安全）和AI特有的“Safety”（AI固有風險），并強調二者的交叉融合，我們開創了一種全新的安全研究范式。這種融合不僅是概念上的疊加，更是方法論上的創新，它要求網絡安全專家與AI研究者突破學科藩籬，共同構建新型安全評估框架。

數據困境與資源枯竭

“Scale Of Law的規律下，大規模數據的需求對高質量公共數據集的消耗殆盡”。這揭示了AI發展面臨的深層次矛盾：更強大的模型需要更多高質量數據，但這些數據資源正在迅速枯竭。未來模型訓練將不可避免地轉向更敏感的數據來源，帶來更復雜的隱私和道德問題。

算法“黑箱”的本質重新定義

大模型訓練過程中的非核心算法被比喻為“迷信與巫術”，參與者往往也不知道哪個環節的操作帶來了正向和負向的效果。這一洞察超越了傳統的“黑箱”討論，指出問題不僅是對外不透明，甚至對開發者自身也存在不可知性。

“正確的廢話”：對齊風險的新維度

我們識別出了一種比“幻覺”更隱蔽的風險類型：“正確的廢話”。它指輸出在形式上看似合理，符合語法和基本邏輯，但實際上缺乏實質內容或準確性。這種表面合理但實質空洞的輸出比明顯錯誤更危險，因為它更難被識別，更容易被誤信任。

復雜度轉移理論

多Agent協作系統通過降低開發難度，實際上是將復雜度從開發環節轉移到了模型和集成環節。這種“復雜度轉移”而非“復雜度消除”的現象，創造了一種新的風險類型。

這一理論對理解未來AI系統的安全挑戰具有革命性意義：它指出了簡化開發過程的代價是引入了更難以預測和控制的系統級復雜性。當我們使用MCP或A2A協議讓多Agent系統自動協作時，表面上降低了開發門檻，但實際上是將復雜度嵌入了更深層次的系統架構中，這種“依賴未知復雜度的模式”帶來的安全風險是全新的，需要新的評估框架。

面向未來的安全發展路徑

1.整合性安全框架

打破Security和Safety的界限，構建統一的安全評估和防護體系，將安全考量融入AI全生命周期。

2.數據效率與倫理平衡

發展小樣本學習、合成數據技術，同時建立數據使用的倫理框架，應對數據資源枯竭挑戰。

3.系統化理解與控制

超越組件級安全，轉向系統級風險管理，特別關注多Agent系統的涌現風險和集成威脅。

4.不確定性的適應性管理

接受AI系統固有的不確定性，發展適應性安全策略，建立多層次防護機制。

5.安全評估方法創新

推動驗證與評估方法的革新，發展針對復雜AI系統的動態、持續性評估體系。

結論

通過將人工智能安全分解為數據、算法、對齊與集成四大風險維度，我們不僅系統化梳理了當前AI安全挑戰，更提出了多個具有前瞻性的創新洞察。這些洞察超越了傳統的安全討論框架，揭示了AI安全的根本性挑戰——不是已知風險的規避，而是未知復雜性的管理。

在“復雜度轉移”“正確的廢話”“算法巫術”等創新概念的引導下，我們倡導了一種全新的AI安全范式，這種范式不再追求絕對的確定性和可控性，而是承認并正視AI系統的根本不確定性，通過系統化、多層次的安全架構來管理這種不確定性。這一范式轉變不僅對技術發展有指導意義，也為政策制定、倫理規范和社會治理提供了新的思考框架。