網安加·百家講壇 | 劉志誠:AI安全風險與未來展望

作者簡介:劉志誠,樂信集團信息安全中心總監、OWASP廣東區域負責人、網安加社區特聘專家。專注于企業數字化過程中網絡空間安全風險治理,對大數據、人工智能、區塊鏈等新技術在金融風險治理領域的應用,以及新技術帶來的技術風險治理方面擁有豐富的理論和相關經驗。

背景:人工智能安全——一個日益凸顯的復雜議題

人工智能(AI)技術正以前所未有的速度滲透到社會生產生活的各個方面,從提升效率到驅動創新,其潛力巨大。

然而,伴隨著AI能力的飛速發展,其潛在的安全風險也日益成為全球關注的焦點。“人工智能安全”這一概念本身就具有多重含義,通常可以從以下幾個維度理解:

人工智能安全的三重含義

1. AI系統自身的網絡安全(Security of AI - Infrastructure)

指AI系統在開發、部署和運營過程中,因存在安全漏洞而被攻擊、利用,導致系統的機密性、完整性、可用性受到破壞。這更偏向傳統網絡安全視角,將AI視為需要保護的信息基礎設施。

2. AI引發的廣義安全風險(Safety of AI - Inherent Risks)

指AI技術本身及其應用可能帶來的固有風險,包括數據驅動的風險、算法與模型風險、生成與對齊風險、應用與集成風險等。

3. 面向安全領域的人工智能應用(AI for Security)

指利用AI技術(如機器學習、深度學習、大語言模型)來提升網絡防御能力,例如用于威脅檢測、態勢感知、安全策略優化等。

本文將重點關注前兩種含義,即AI系統自身的安全防護以及AI技術固有和衍生的安全風險。

當前研究熱點與焦點領域

當前,全球范圍內對人工智能安全的研究高度活躍,主要聚焦于以下幾個方面:

??生成式AI的安全問題:作為當前熱點,其魯棒性、可靠性、可解釋性、公平性、偏見、隱私保護、倫理治理以及在關鍵基礎設施中的應用安全尤為突出。

? 可信人工智能:重點研究如何構建和評估可信賴的AI系統,特別是大型語言模型(LLM),包括提高透明度、增強可解釋性、進行可信評估與測試。

??對抗性機器學習:研究AI模型如何抵御惡意制作的輸入(對抗樣本)或其他旨在欺騙或破壞模型性能的攻擊,并開發相應的防御策略。

??數據安全與隱私保護:在AI全生命周期中,如何對數據進行分類、脫敏、保護,防止訓練數據泄露敏感信息,尤其是在高質量公共數據趨于枯竭的情況下。

??AI倫理與治理:制定相應的法律法規、倫理準則、技術標準,平衡AI發展與安全,防范誤用濫用,推動負責任的AI創新。

??AI Agent安全:隨著AI Agent(智能體)技術的發展,其在感知、決策、行動環節可能帶來的新風險,以及如何對其進行有效治理成為新議題。

人工智能安全風險分類

其他重要風險類型

1. 濫用與誤用風險(Abuse & Misuse Risk)

AI技術可能被有意(濫用)或無意(誤用)地用于有害目的,如生成虛假信息、進行網絡攻擊、侵犯版權等。

2. 失控風險(Loss of Control Risk)

AI系統行為和影響超出預期范圍,在極端情況下可能帶來災難性后果。當前缺乏有效管控高級AI的技術手段。

3. 侵權與責任風險(Infringement & Liability Risk)

AI應用可能侵犯人權或知識產權,且責任界定困難。確定何時由人承擔責任,何時由AI提供者或使用者負責成為挑戰。

4.社會經濟風險(Socioeconomic Risk)

AI對就業市場、社會不平等、信息生態的影響,可能導致技能貶值、失業增加、不平等加劇和信息泡沫等問題。

綜合分析:安全風險的理論研究與實踐案例

綜合當前人工智能安全領域的研究動態和實踐案例,我們可以看到各類風險在不同維度上的復雜交織,以及學界和產業界提出的應對方案。

數據風險的深層次分析

理論研究

研究表明,AI模型訓練數據源自現實世界,不可避免地會學習和復制甚至放大社會中存在的偏見和歧視。算法可能無意中將特定群體與負面信息關聯,這是數據和算法交互的結果。

在Scale Of Law規律下,高質量公共數據的稀缺性使得包含敏感信息的數據集使用增加,加劇了隱私泄露和商業侵權風險。

實踐案例

多個案例顯示AI在招聘、司法、金融服務、教育和內容生成等領域產生歧視性結果。

例如,個性化定價可能演變成價格歧視,政府數據治理中嵌入AI也可能因數據片面性導致算法歧視。員工使用生成式AI時無意輸入敏感信息,導致數據泄露。醫療領域、智能設備和政府數據管理是數據泄露的高風險場景。

應對策略

針對上述風險,研究者和從業者提出了多種應對策略:通過數據清洗、平衡和人工審查等手段在數據階段實現對齊;加密、強認證、訪問控制和安全審計等措施加強數據保護;確保訓練數據真實、準確、客觀、多樣且來源合法,并建立數據治理框架;遵守相關法規并進行合規審計。

算法與對齊風險的關鍵洞察

核心問題

算法風險和對齊風險有著密切的關聯。算法作為AI的核心驅動力,其設計或實施中的錯誤、固有缺陷和“黑箱”特性,直接影響對齊質量。

同時,基于概率的輸出機制和提示詞工程的不確定性,使得模型輸出的準確性、真實性和有效性無法得到完全保證。

典型表現

“幻覺”是對齊問題的典型表現,指AI生成看似合理但與事實不符或無法驗證的內容。

研究發現,除了明顯的幻覺,還存在“正確的廢話”現象——輸出在形式上符合語法和基本邏輯,但實際上缺乏實質內容和價值。這種表面合理但實質空洞的輸出比明顯錯誤更危險,因為它更難被識別。

前沿解決方案

當前前沿的解決方案包括提升算法的可解釋性、進行安全測試和風險評估;通過檢索增強生成(RAG)提高輸出的事實準確性;應用人類反饋強化學習(RLHF)改進AI行為;開發價值觀對齊方法,為AI植入道德指南針。然而,這些方法仍在發展中,其有效性有待進一步驗證。

集成風險與多Agent協作的未知領域

復雜度轉移

集成風險揭示了一個極具洞察力的現象:多Agent協作系統通過降低開發難度,表面上簡化了復雜任務,但實際上是將復雜度從開發環節轉移到了模型自動化和集成環節。這種“復雜度轉移”而非“復雜度消除”的現象,創造了一種新的風險類型。

系統級風險

MCP、A2A等協議使多Agent自動化協作成為可能,依賴于復雜的感知、決策、分解、應用和集成模式。但這種依賴未知復雜度的協作機制引入了系統級風險:當各個Agent基于自身決策進行協作時,可能產生個體層面難以預測的涌現行為,增加了整體系統的不確定性。

研究與應用

作戰系統、教育、電網仿真等領域正在探索Agent應用。研究表明,多Agent系統在提高效率的同時也增加了復雜性和風險。業界正在開發如多智能體框架(OWL)和模型上下文協議(MCP)等規范,旨在降低風險。然而,Agent的量化評估(實用性、社會性、價值觀)仍具有重大挑戰性。

綜合以上分析,我們可以看到人工智能安全風險呈現出幾個關鍵特征:

??多維交織性:各類風險并非孤立存在,而是相互影響、彼此強化。

??內在不確定性:AI系統的復雜性使得許多風險難以完全預測和評估。

??動態演化性:風險隨著技術發展和應用場景拓展不斷變化

??治理滯后性:現有的評估框架和治理機制難以跟上技術發展速度。

創新洞察:人工智能安全的范式轉變

基于上述風險分析和挑戰,我們提出以下關于人工智能安全的創新洞察和未來發展路徑:

安全融合視角的創新突破

通過區分傳統的“Security”(系統網絡安全)和AI特有的“Safety”(AI固有風險),并強調二者的交叉融合,我們開創了一種全新的安全研究范式。這種融合不僅是概念上的疊加,更是方法論上的創新,它要求網絡安全專家與AI研究者突破學科藩籬,共同構建新型安全評估框架。

數據困境與資源枯竭

“Scale Of Law的規律下,大規模數據的需求對高質量公共數據集的消耗殆盡”。這揭示了AI發展面臨的深層次矛盾:更強大的模型需要更多高質量數據,但這些數據資源正在迅速枯竭。未來模型訓練將不可避免地轉向更敏感的數據來源,帶來更復雜的隱私和道德問題。

算法“黑箱”的本質重新定義

大模型訓練過程中的非核心算法被比喻為“迷信與巫術”,參與者往往也不知道哪個環節的操作帶來了正向和負向的效果。這一洞察超越了傳統的“黑箱”討論,指出問題不僅是對外不透明,甚至對開發者自身也存在不可知性。

“正確的廢話”:對齊風險的新維度

我們識別出了一種比“幻覺”更隱蔽的風險類型:“正確的廢話”。它指輸出在形式上看似合理,符合語法和基本邏輯,但實際上缺乏實質內容或準確性。這種表面合理但實質空洞的輸出比明顯錯誤更危險,因為它更難被識別,更容易被誤信任。

復雜度轉移理論

多Agent協作系統通過降低開發難度,實際上是將復雜度從開發環節轉移到了模型和集成環節。這種“復雜度轉移”而非“復雜度消除”的現象,創造了一種新的風險類型。

這一理論對理解未來AI系統的安全挑戰具有革命性意義:它指出了簡化開發過程的代價是引入了更難以預測和控制的系統級復雜性。當我們使用MCP或A2A協議讓多Agent系統自動協作時,表面上降低了開發門檻,但實際上是將復雜度嵌入了更深層次的系統架構中,這種“依賴未知復雜度的模式”帶來的安全風險是全新的,需要新的評估框架。

面向未來的安全發展路徑

1.整合性安全框架

打破Security和Safety的界限,構建統一的安全評估和防護體系,將安全考量融入AI全生命周期。

2.數據效率與倫理平衡

發展小樣本學習、合成數據技術,同時建立數據使用的倫理框架,應對數據資源枯竭挑戰。

3.系統化理解與控制

超越組件級安全,轉向系統級風險管理,特別關注多Agent系統的涌現風險和集成威脅。

4.不確定性的適應性管理

接受AI系統固有的不確定性,發展適應性安全策略,建立多層次防護機制。

5.安全評估方法創新

推動驗證與評估方法的革新,發展針對復雜AI系統的動態、持續性評估體系。

結論

通過將人工智能安全分解為數據、算法、對齊與集成四大風險維度,我們不僅系統化梳理了當前AI安全挑戰,更提出了多個具有前瞻性的創新洞察。這些洞察超越了傳統的安全討論框架,揭示了AI安全的根本性挑戰——不是已知風險的規避,而是未知復雜性的管理。

在“復雜度轉移”“正確的廢話”“算法巫術”等創新概念的引導下,我們倡導了一種全新的AI安全范式,這種范式不再追求絕對的確定性和可控性,而是承認并正視AI系統的根本不確定性,通過系統化、多層次的安全架構來管理這種不確定性。這一范式轉變不僅對技術發展有指導意義,也為政策制定、倫理規范和社會治理提供了新的思考框架。

參考文獻

1.OpenAI. (2023). GPT-4 System Card. https://cdn.openai.com/papers/gpt-4-system-card.pdf

2.Google DeepMind. (2023). Frontier AI Safety and Preparedness. https://deepmind.google/discover/blog/frontier-ai-safety-and-preparedness/

3.中國科學院. (2023). 中國科學院發布《人工智能安全白皮書》. https://www.cas.cn/yw/202311/t20231117_4998381.shtml

4.國家互聯網信息辦公室. (2023). 《生成式人工智能服務管理暫行辦法》. http://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

5.Future of Life Institute. (2023). Statement on AI Risk. https://futureoflife.org/open-letter/ai-risk/

6.Anthropic. (2023). Core Challenges in AI Safety. https://www.anthropic.com/research

7.劉鵬, 張建華. (2022). 人工智能倫理的研究趨勢、熱點與前沿——基于CiteSpace的可視化分析. 情報雜志, 41(09), 170-177.

8.李德毅, 高山, 崔巖. (2023). 讀懂AI Agent:多智能體協作的智能風險與治理. 中國工程科學, 25(04), 54-61.

9.李曉東, 陳澤宇, 黃明. (2023). 基于風險的人工智能監管治理:理論范式與實踐路徑. 電子政務, (06), 2-14.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901886.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901886.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901886.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

TOA與AOA聯合定位的高精度算法,三維、4個基站的情況,MATLAB例程,附完整代碼

本代碼實現了三維空間內目標的高精度定位,結合到達角(AOA) 和到達時間(TOA) 兩種測量方法,通過4個基站的協同觀測,利用最小二乘法解算目標位置。代碼支持噪聲模擬、誤差分析及三維可視化,適用于無人機導航、室內定位等場景。訂閱專欄后可獲得完整代碼 文章目錄 運行結果…

2025MathorcupC題 音頻文件的高質量讀寫與去噪優化 保姆級教程講解|模型講解

2025Mathorcup數學建模挑戰賽(媽媽杯)C題保姆級分析完整思路代碼數據教學 C題:音頻文件的高質量讀寫與去噪優化 隨著數字媒體技術的迅速發展,音頻處理成為信息時代的關鍵技術之一。在日常生活中,從錄音設備捕捉的原始…

Deno Dep:顛覆傳統的模塊化未來

一、重新定義依賴管理:Deno Dep 的革新哲學 Deno Dep(原Deno包管理器)徹底重構了JavaScript/TypeScript的依賴管理方式,其核心突破體現在: 1. 瀏覽器優先的模塊化(URL-Centric Modules) // 直…

歐拉系統升級openssh 9.7p1

開發的系統準備上線,甲方對歐拉服務器進行了掃描,發現openssh版本為8.2p1,存在漏洞,因此需要升級openssh至9.7p1。歐拉系統版本為20.03 SP3。 1、下載openssh 9.7p1 https://www.openssh.com/releasenotes.html, 將下…

如何精通C++編程?

如果從學生時代算起的話,我學習和使用C已經差不多快十年了,仍然不敢說自己已經掌握了C的全部特性,但或許能夠給出一些有用的建議吧。 我學習C全靠自學,花費了不少的功夫,在這里分享一些學習心得,希望對大家…

提高Qt工作線程的運行速度

1. 使用線程池(QThreadPool)替代單一線程 做過,但是當時沒想到。。。 目的:減少線程創建和銷毀的開銷,復用線程資源。 實現步驟: 創建自定義任務類:繼承QRunnable,實現run()方法。…

Solon AI MCP Server 入門:Helloworld (支持 java8 到 java24。國產解決方案)

目前網上能看到的 MCP Server 基本上都是基于 Python 或者 nodejs ,雖然也有 Java 版本的 MCP SDK,但是鮮有基于 Java 開發的。 作為Java 開發中的國產頂級框架 Solon 已經基于 MCP SDK 在進行 Solon AI MCP 框架開發了,本文將使用 Solon AI …

STL之迭代器(iterator)

迭代器的基本概念 迭代器(iterator)模式又稱為游標(Cursor)模式,用于提供一種方法順序訪問一個聚合對象中各個元素, 而又不需暴露該對象的內部表示。或者這樣說可能更容易理解:Iterator模式是運用于聚合對象的一種模式,通過運用該模式&#…

Android系統通知機制深度解析:Framework至SystemUI全鏈路剖析

1. 前言 在Android 13的ROM定制化開發中,系統通知機制作為用戶交互的核心組件,其實現涉及Framework層到SystemUI的復雜協作。本文將深入剖析從Notification發送到呈現的全鏈路流程,重點解析關鍵類的作用機制及系統服務間的交互邏輯&#xff…

UE5角色狀態機中跳躍落地移動銜接問題

UE5系列文章目錄 文章目錄 UE5系列文章目錄前言一、狀態機設置二、主要藍圖 前言 先說說遇到的問題,在我按空格鍵跳躍落地以后,角色落地再按WSAD鍵移動就出現了畫面中角色抽搐的情況 一、狀態機設置 在Unreal Engine 5中創建角色時,處理跳…

使用SVM對心臟數據是否患病進行分類預測

作者簡介 杜嘉寶,男,西安工程大學電子信息學院,2024級研究生 研究方向:變壓器故障預警與檢測 電子郵件:djb857497378gmail.com 王子謙,男,西安工程大學電子信息學院,2024級研究生&a…

Node做BFF中間層架構優化前端開發體驗并提升系統整體性能。

文章目錄 1. BFF 層的定位2. 技術選型3. 架構設計3.1 分層設計3.2 示例架構 4. 核心功能實現4.1 數據聚合4.2 權限校驗4.3 緩存優化 5、實戰示例1. 場景說明2. ECharts 數據格式要求3. BFF 層實現步驟3.1 接收前端參數3.2 調用后端服務獲取數據 4. 前端使用 總結 在使用 Node.j…

文件系統 軟硬連接

🌻個人主頁:路飛雪吖~ 🌠專欄:Linux 目錄 一、理解文件系統 🌠磁盤結構 二、軟硬連接 🌟軟硬鏈接 🌠軟鏈接: 🌠硬鏈接: 🌟理解軟硬鏈接的應…

單片機 | 基于51單片機的自動循跡小車設計

以下是一個基于51單片機的自動循跡小車設計詳解,包含原理、公式和完整代碼: 一、系統原理 核心模塊: 傳感器:紅外對管(TCRT5000)x4主控芯片:STC89C52RC(51單片機)電機驅動:L298N驅動模塊電源:7.4V鋰電池(電機) + 5V穩壓(單片機)工作原理: 紅外對管發射紅外線,…

2025.04.17【Stacked area】| 生信數據可視化:堆疊區域圖深度解析

文章目錄 生信數據可視化:堆疊區域圖深度解析堆疊面積圖簡介為什么使用堆疊面積圖如何使用R語言創建堆疊面積圖安裝和加載ggplot2包創建堆疊面積圖的基本步驟示例代碼 解讀堆疊面積圖堆疊面積圖的局限性實際應用案例示例:基因表達量隨時間變化 結論 生信…

基于單片機的智能養生油炸爐系統設計與實現

標題:基于單片機的智能養生油炸爐系統設計與實現 內容:1.摘要 本文針對傳統油炸爐功能單一、無法滿足現代養生需求的問題,設計并實現了基于單片機的智能養生油炸爐系統。通過采用STC89C52單片機作為控制核心,結合溫度傳感器、液位傳感器、繼電器等硬件&…

QML與C++:基于ListView調用外部模型進行增刪改查(附自定義組件)

目錄 引言相關閱讀項目結構文件組織 核心技術實現1. 數據模型設計聯系人項目類 (datamodel.h)數據模型類 (datamodel.h)數據模型實現 (datamodel.cpp) 2. 主程序入口點 (main.cpp)3. 主界面設計 (Main.qml)4. 聯系人對話框 (ContactDialog.qml)5. 自定義組件CustomTextField.qm…

【MySQL】事務ACID理解記憶

事務的 ACID 特性詳解 數據庫中的 事務(Transaction) 是一組操作的集合,這些操作要么全部執行,要么全部不執行。為了保證事務可靠執行,必須滿足 ACID 四大特性: 特性英文縮寫簡要說明原子性Atomicity事務…

MYSQL “Too Many Connections“ 錯誤解決

1.查詢當前連接數 show status like "Threads_connected"; 2.查詢數據庫最大連接數 show variables like "max_connections" 3.查詢所有活動連接 show processlist; 4.根據查詢結果觀察是否有長時間未被釋放的連接 參數解釋 : 字段說明id連接的唯一…

Python爬蟲實戰:基于 Scrapy 框架的微博數據爬取研究

一、引言 1.1 研究背景 在當今數字化時代,社交媒體已成為信息傳播和公眾交流的重要平臺。微博作為國內極具影響力的社交媒體之一,每日產生海量的用戶生成內容,涵蓋新聞資訊、社交互動、娛樂八卦、熱點話題討論等多個領域。這些數據不僅反映了公眾的興趣偏好、情感態度和社…