大模型安全關鍵技術研究

引言

隨著人工智能技術的迅猛發展，大模型已成為推動各行業變革的核心力量。從智能客服、醫療影像識別到金融風險預測，大模型的應用場景不斷拓展，深刻改變著人們的生產生活方式。大模型已經轉變為AI領域的基礎設施，為解決各種復雜問題提供底層強大的計算、學習和求解能力，從初期的大語言模型延伸到多模態、語音、圖像、視頻等各領域，甚至用于天氣預報、石油勘探、智慧城市等復雜系統的建模與預測。

然而，伴隨大模型的深度應用，其安全問題也日益凸顯，成為制約行業健康發展的關鍵因素。大模型安全威脅主要涵蓋四大類別：

數據安全挑戰

在數據層面，大模型訓練依賴海量數據，其中不乏大量個人敏感信息、商業機密等。數據泄露問題屢見不鮮，一旦這些數據在采集、存儲、傳輸等環節出現安全漏洞，被不法分子竊取，將對個人隱私和企業權益造成嚴重損害。數據投毒也是一大威脅，攻擊者通過向訓練數據中注入惡意數據，干擾模型的訓練過程，使模型在后續應用中輸出錯誤或有害結果。

模型安全挑戰

在模型層面，模型竊取風險不容忽視。不法分子可通過技術手段竊取企業或機構訓練好的大模型，用于非法目的，如開發仿冒產品、進行不正當競爭等。模型后門同樣危險，攻擊者在模型訓練過程中植入后門程序，在特定條件下可以控制模型的輸出，干擾正常業務運行。此外，對抗攻擊也是大模型面臨的重要安全威脅

應用安全挑戰

在應用層面，生成內容的合規性問題突出。部分大模型在運行過程中，可能會生成包含虛假信息、仇恨言論、色情低俗、暴力恐怖等違法違規內容，對社會秩序和公序良俗造成沖擊。提示詞注入攻擊也是一大威脅，攻擊者可能通過此漏洞繞過模型安全機制、逆向模型、獲取模型敏感信息等[6]。

系統安全挑戰

系統層面的安全問題包括API漏洞、供應鏈風險和算力濫用等，這些傳統安全問題與大模型特有威脅相結合，形成了復雜的安全挑戰[15]。

研究大模型安全關鍵技術的必要性

鑒于大模型安全威脅的多樣性和復雜性，研究大模型安全關鍵技術迫在眉睫。2023年4月30日，全國網絡安全標準化技術委會正式發布了三項大模型安全國家標準，包括《網絡安全技術生成式人工智能服務安全基本要求》、《網絡安全技術生成式人工智能預訓練和優化訓練數據安全規范》以及《網絡安全技術生成式人工智能數據標注安全規范》，這些標準已于2024年11月1日正式實施，為大模型的安全發展提供了堅實保障。

構建完善的大模型安全防御體系，需要從數據安全防護、模型安全加固、應用安全防護、系統安全機制和合規與治理五個核心領域入手：

同時，建立科學的安全評估流程，包括風險評估、測試驗證、合規檢查和持續監控，形成閉環監控體系，對保障大模型安全至關重要：

（圖片來源：大模型安全評估流程圖）

綜上所述，大模型技術雖然帶來了巨大的創新價值，但其安全挑戰不容忽視。研究大模型安全關鍵技術，構建完善的安全防御體系和評估機制，對于促進大模型技術健康、可持續發展具有重要意義。

大模型安全威脅分類體系

大模型安全威脅可分為四大核心類別，每類威脅針對大模型生命周期的不同階段，形成全方位的安全挑戰。

數據安全威脅

數據安全威脅主要發生在大模型訓練前及訓練階段，包括：

數據投毒攻擊：攻擊者通過向模型的訓練數據集中注入惡意樣本，導致模型在后續訓練過程中引入偏差或后門。這種攻擊可能在特定條件下觸發異常行為，嚴重影響模型的可靠性和安全性[6]。
數據泄露：在數據采集、存儲和傳輸過程中，可能因安全漏洞導致包含個人敏感信息、商業機密等重要數據被竊取，對個人隱私和企業權益造成嚴重損害。
隱私濫用：大模型訓練數據中可能包含未經授權的個人隱私信息，導致在使用過程中泄露用戶敏感數據。

模型安全威脅

模型安全威脅主要針對模型本身結構和參數：

模型竊取：不法分子通過技術手段竊取企業或機構訓練好的大模型，用于非法目的，如開發仿冒產品或進行不正當競爭。
模型后門：攻擊者在模型訓練過程中植入后門程序，使模型在特定輸入條件下產生預設的錯誤輸出，從而控制模型行為。
對抗攻擊：通過構造特殊輸入樣本，誘導模型產生錯誤輸出，破壞模型正常功能。這類攻擊利用模型對微小擾動的敏感性，是當前大模型面臨的重要安全威脅。

應用安全威脅

應用安全威脅主要發生在模型部署和使用階段：

提示詞注入攻擊：攻擊者通過特殊的prompt工程技術與大模型進行非法交互，繞過安全機制，可能導致模型泄露系統提示詞、執行非授權操作或生成有害內容[8]。
內容合規風險：大模型可能生成包含虛假信息、仇恨言論、色情低俗、暴力恐怖等違法違規內容，對社會秩序造成負面影響。
功能濫用：攻擊者可能利用模型的工具調用功能(function call)進行非法操作，導致敏感數據泄漏或篡改[8]。

系統安全威脅

系統安全威脅涉及大模型運行的基礎設施和環境：

供應鏈攻擊：發生在獲取第三方數據或引用外部庫時，如果這些來源受到污染或存在漏洞，最終訓練出的大模型也會受到威脅[6]。
API漏洞：大模型服務接口可能存在安全漏洞，被攻擊者利用進行未授權訪問或數據竊取。
算力濫用：攻擊者可能通過漏洞獲取大模型計算資源的使用權限，用于挖礦等非法活動，造成資源浪費和經濟損失。

為應對這些威脅，國際標準組織已發布大模型安全領域標準，提出了大語言模型安全風險分類、攻擊分類分級方法以及測試方法，并給出四種不同攻擊強度的攻擊手法分類標準，為全球AI安全評估測試提供了新基準[10]。同時，網宿安全等機構推出的大模型安全評估服務，采用最新的AI對抗攻擊檢測技術，結合自動化檢測與專家滲透測試，能夠確保評估效率和精準度，從數據安全、算法安全等多維度保障大模型安全[9]。

大模型安全防御技術框架

大模型安全防御需構建全生命周期的多層次防護體系，從數據、模型、應用、系統和合規治理五個維度形成完整防御閉環。

數據防護技術

數據防護是大模型安全的第一道防線，主要包括：

數據來源審查：確保訓練數據來源合法合規，建立嚴格的數據收集準則，遵循最小必要原則，避免過度收集數據[12]。
數據預處理與凈化：對訓練數據進行嚴格的安全評估和預處理，去除敏感信息和噪聲數據，防止數據泄露和投毒[12]。
數據加密與訪問控制：對傳輸和存儲的數據進行加密處理，確保數據的保密性，嚴格控制數據的訪問和使用權限，對數據的使用情況進行詳細記錄和審計[12]。

模型加固技術

模型加固技術旨在增強模型本身的安全性和魯棒性：

對抗訓練：通過在訓練過程中引入對抗樣本，增強模型對攻擊的抵抗能力，提高模型的魯棒性。
模型后門檢測與清除：開發有效的后門檢測方法，識別和清除模型中可能存在的后門，為大模型下游微調和部署提供安全防護。
模型版本管理與備份：建立完善的模型版本管理和備份機制，定期對模型進行安全檢測和更新，確保模型的完整性和可用性[12]。

應用防護技術

應用防護技術關注模型部署和使用階段的安全：

輸入過濾與驗證：對用戶輸入進行嚴格的過濾和驗證，識別并阻斷可能的提示詞注入攻擊，防止攻擊者繞過安全機制。
輸出內容審核：建立多層次的內容審核機制，對模型生成的內容進行實時檢測和過濾，防止生成違規有害內容，增強大模型網絡意識形態的安全性。
可控生成技術：通過在推理過程中增加約束信息或直接針對模型輸入輸出增加控制模塊，實現有約束的生成過程，確保輸出內容的安全性和合規性。

系統安全機制

系統安全機制保障大模型運行環境的安全：

身份認證與訪問控制：對用戶進行嚴格的身份認證，根據用戶的角色和權限分配相應的操作權限，防止未經授權的訪問和操作[12]。
供應鏈安全管理：針對大模型訓練數據易受污染或被投毒的挑戰，建立完善的供應鏈安全管理體系，對第三方數據和外部庫進行安全評估和監控。
實時監控與審計：建立健全審計監測機制，實時監控模型的運行狀態和用戶行為，及時發現和處理異常情況[12]。

合規與治理技術

合規與治理技術確保大模型的開發和應用符合法律法規和倫理標準：

安全評估體系：構建生成式大模型的安全度量指標體系和大模型安全評估平臺，研究實現對大模型的一站式安全風險評估，為大模型進行迭代升級指明具體優化的方向。
合規檢查機制：根據國家標準和行業規范，定期對大模型的數據處理、模型訓練和應用部署進行合規檢查，確保符合《網絡安全技術生成式人工智能服務安全基本要求》等相關標準[12]。
倫理審查與價值觀引導：確保大模型的操作符合社會規則和倫理道德，具有正確的價值觀，防止模型在理解和生成內容時出現偏見，導致信息誤導或產生虛假信息。

通過構建這一多層次、全方位的大模型安全防御技術框架，可以有效應對大模型面臨的各類安全威脅，保障大模型技術的健康、可持續發展。隨著三項大模型安全國家標準的實施，大模型安全防御體系將更加規范化、標準化，為行業發展提供堅實保障。

大模型安全評估與測試方法

大模型安全評估是保障AI系統可靠運行的關鍵環節，需要構建科學、系統的評估流程，從風險評估、測試驗證、合規檢查到持續監控形成閉環體系。

風險評估方法

風險評估是安全評估的首要環節，主要包括以下方面：

多維度安全風險分析：對大模型進行全面的安全性評估，分析多樣的安全性度量場景，構建生成式大模型的安全度量指標體系。
威脅建模：基于國際標準組織發布的大語言模型安全風險分類，對潛在威脅進行系統性識別和分級，包括數據投毒、模型后門、提示注入等攻擊類型。
風險優先級排序：根據威脅的嚴重程度、發生可能性和影響范圍，對識別出的風險進行優先級排序，確定重點防護領域。

測試驗證方法

測試驗證階段采用多種技術手段驗證大模型的安全性：

自動化安全測試：采用最新的AI對抗攻擊檢測技術，結合自動化檢測工具，對大模型進行全面安全測試，提高評估效率和精準度[6]。
專家滲透測試：由安全專家針對大模型進行定向滲透測試，模擬真實攻擊場景，發現自動化工具難以識別的安全漏洞。
紅藍對抗演練：通過攻防對抗的方式，全面檢驗大模型的安全防護能力，及時發現并修復安全漏洞。

合規檢查方法

合規檢查確保大模型符合相關法律法規和行業標準：

標準符合性評估：根據《網絡安全技術生成式人工智能服務安全基本要求》等國家標準，對大模型的安全性進行評估，確保符合監管要求。
RUBRICC框架評估：采用RUBRICC框架(Regulatory, Usability, Bias, Reliability, Interoperability, Cost, Codesign-PPIE)對大模型進行全面評估，為政策和部署決策提供依據[2]。
隱私影響評估：評估大模型對用戶隱私的潛在影響，確保符合數據保護法規，防止隱私數據泄露。

持續監控方法

持續監控是安全評估的重要環節，確保大模型在運行過程中的安全性：

實時監控系統：建立大模型安全評估平臺，實時監控模型輸入輸出，檢測異常行為，及時發現安全風險。
定期安全審計：定期對大模型的運行狀態、用戶交互和生成內容進行安全審計，發現潛在安全隱患。
閉環反饋機制：建立問題反饋和處理機制，對發現的安全問題進行及時修復和優化，不斷提升大模型的安全性。

大模型安全評估是一個動態、持續的過程，需要在風險評估、測試驗證、合規檢查和持續監控四個環節形成閉環，通過科學的評估方法和完善的評估流程，全面保障大模型的安全可靠運行。隨著大模型技術的不斷發展，安全評估方法也需要持續創新和完善，以應對日益復雜的安全挑戰。

監管政策與合規要求

國內法規標準體系

我國已建立較為完善的大模型安全監管體系。2023年4月30日，全國網絡安全標準化技術委員會正式發布三項大模型安全國家標準，包括《網絡安全技術生成式人工智能服務安全基本要求》、《網絡安全技術生成式人工智能預訓練和優化訓練數據安全規范》以及《網絡安全技術生成式人工智能數據標注安全規范》，這些標準已于2024年11月1日正式實施，為大模型的安全發展提供了堅實保障。

此外，國際標準組織也發布了大模型安全領域兩項國際標準，提出了大語言模型安全風險分類、攻擊分類分級方法以及測試方法，并給出四種不同攻擊強度的攻擊手法分類標準，為全球AI安全評估測試提供了新基準[10]。

合規實施路徑

1. 建立強制合規要求

全國政協委員、奇安信董事長齊向東建議，通過出臺大模型網絡數據安全強制合規要求等文件，對企業做好人工智能時代的安全防護工作給予清晰指引[13]。這些要求應涵蓋：

數據安全合規：確保訓練數據來源合法，處理過程符合隱私保護要求
模型安全合規：建立模型安全評估機制，防范后門攻擊和對抗樣本
應用安全合規：規范模型輸出內容審核，防止生成有害內容

2. 構建多層次安全防護體系

企業應構建適配大模型的縱深防御體系，做好"內防內鬼，外防攻擊"，對數據安全、終端安全、API安全等方面給予全方位安全保障[13]。具體包括：

供應鏈安全管理：針對大模型訓練數據易受污染或被投毒的挑戰，研究大模型數據審查方法
模型安全性評估：構建生成式大模型的安全度量指標體系和評估平臺
生成內容安全：對大模型生成內容的安全性進行深入研究，增強網絡意識形態安全

3. 建立高效應急響應機制

齊向東強調，企業需要建立高效的應急響應機制，一旦發現惡意行為或潛在安全事件，第一時間進行處置，把威脅扼殺在搖籃里[13]。這包括：

實時監控系統：對模型運行狀態進行持續監控
定期安全審計：定期開展網絡和數據安全體檢
閉環反饋機制：及時修復發現的安全漏洞

4. 擁抱AI+安全創新

為提升安全防護效率，企業應積極擁抱"AI+安全"創新成果。齊向東建議設立專項基金促進AI+安全創新成果落地，通過技術創新提高安全防護水平[13]。

5. 國際合作與標準共建

隨著大模型技術的全球化應用，國際合作日益重要。奇安信等企業已帶動一批在細分領域有絕對實力的安全企業一起抱團出海，共同打響中國品牌，為全球網絡空間安全貢獻中國網安企業的力量[13]。

通過以上合規實施路徑，企業可以在確保大模型安全的同時，促進技術創新和產業發展，實現安全與發展的良性互動。正如齊向東所言："創新是第一動力，安全是底線要求。只有筑牢安全防線、守住合規底線，創新才有可能行穩致遠。"[13]

應用場景與技術實踐

金融行業安全應用實踐

金融行業作為大模型應用的重要領域，對安全性要求極高。某大型銀行在部署大模型智能客服系統時，采用了多層次安全防護體系：

數據脫敏與加密處理：對客戶敏感信息進行脫敏處理，采用端到端加密技術保護數據傳輸安全，有效防止了數據泄露風險。
輸入過濾與提示詞注入防護：實施嚴格的輸入驗證機制，成功攔截了95%以上的惡意提示詞注入攻擊嘗試，保障了模型安全運行。
內容合規審核：部署實時內容審核系統，對模型生成內容進行多維度檢測，確保輸出內容合規性，避免了潛在的法律風險。

醫療行業安全防護案例

某三甲醫院在應用大模型輔助診斷系統時，針對醫療數據的高敏感性，實施了全面的安全防護措施：

隱私計算技術應用：采用聯邦學習和差分隱私技術，在保護患者隱私的同時實現了模型訓練，有效平衡了數據利用與隱私保護。
模型魯棒性增強：通過對抗訓練技術提升模型魯棒性，使模型在面對對抗樣本時仍能保持95%以上的準確率，大幅提升了診斷可靠性。
多方安全審計：建立由醫療專家、倫理委員會和技術團隊組成的多方審計機制，對模型決策進行定期審查，確保符合醫療倫理和法規要求。

政務服務安全實踐

某省級政務服務平臺在部署大模型智能問答系統時，實施了嚴格的安全防控措施：

供應鏈安全管理：對模型訓練數據源進行全面審查，建立數據來源可追溯機制，有效防范了數據投毒風險。
安全評估與合規檢查：按照《網絡安全技術生成式人工智能服務安全基本要求》等國家標準，對系統進行定期安全評估，確保符合監管要求[12]。
實時監控與應急響應：建立7×24小時安全監控體系，對異常行為進行實時檢測和響應，成功防范了多起安全事件。

教育領域安全應用

某在線教育平臺在應用大模型個性化學習助手時，采取了全面的安全措施：

模型后門檢測：應用先進的后門檢測技術，對模型進行定期安全掃描，確保模型未被植入惡意后門。
年齡適宜內容過濾：針對不同年齡段學生，開發定制化內容過濾機制，確保生成內容符合教育倫理和學生認知水平。
安全意識培訓：對師生進行大模型安全使用培訓，提高安全意識，減少因操作不當導致的安全風險。

工業領域安全實踐

某制造企業在應用大模型進行生產優化時，實施了嚴格的安全防護：

隔離部署與訪問控制：采用物理隔離部署方式，實施嚴格的身份認證和訪問控制，有效防止了未授權訪問和操作[12]。
模型版本管理：建立完善的模型版本管理和備份機制，定期對模型進行安全檢測和更新，確保模型的完整性和可用性。
紅藍對抗演練：定期開展安全攻防演練，全面檢驗大模型的安全防護能力，及時發現并修復安全漏洞。

這些行業案例表明，通過實施全面的安全防護措施，大模型可以在保障安全的前提下發揮其強大的價值，為各行業數字化轉型提供有力支持。隨著安全技術的不斷創新和完善，大模型的應用將更加安全可靠。

未來發展趨勢與挑戰

大模型安全技術演進方向

隨著大模型技術的快速發展，其安全防護技術也將呈現以下趨勢：

自主安全能力增強：未來大模型將具備更強的自主安全意識，通過基于人類反饋的強化學習策略推進大模型的自主可控性。使用獎勵模型學習人類評價模式，進而對大模型進行自動微調，提升模型在安全性、有效性等維度的表現。
多模態安全防護融合：隨著大模型從單一語言模型向多模態方向發展，安全防護技術也將實現跨模態融合，構建統一的安全評估框架，應對文本、圖像、視頻等多種形式內容的安全風險。
隱私計算技術普及：聯邦學習、差分隱私等隱私計算技術將在大模型訓練中得到廣泛應用，實現"數據可用不可見"，有效解決數據隱私與模型訓練之間的矛盾。
安全評估標準化：隨著三項大模型安全國家標準的實施，安全評估將更加標準化、規范化，形成統一的評估指標體系和測試方法，為行業發展提供堅實保障[12]。

新型安全挑戰

大模型技術的發展也帶來了一系列新型安全挑戰：

高級提示詞攻擊：隨著攻擊技術的演進，提示詞注入攻擊將變得更加隱蔽和復雜，傳統的過濾機制可能難以有效防御，需要開發更智能的防護技術[6]。
多模態協同攻擊：攻擊者可能利用多模態輸入的特點，通過文本、圖像、音頻等多種渠道協同發起攻擊，繞過單一模態的安全防護機制，對防御體系提出更高要求。
模型竊取與復制：隨著大模型商業價值的提升，模型竊取與復制風險將增加，如何保護模型知識產權，防止核心技術被盜用成為重要挑戰。
算力資源濫用：大模型的強大能力可能被用于自動化生成釣魚郵件、虛假新聞等有害內容，或被用于挖礦等非法活動，如何防止算力資源濫用成為亟待解決的問題。
倫理與價值觀挑戰：大模型在理解和生成內容時可能出現偏見，導致信息誤導或產生虛假信息。確保模型具有正確的價值觀，符合社會規則和倫理道德，是大模型安全面臨的長期挑戰。

應對這些挑戰需要產學研各方協同努力，持續創新安全技術，完善監管體系，構建多層次、全方位的大模型安全防御體系，確保大模型技術在安全可控的前提下健康發展。同時，國際合作也至關重要，共同制定全球通用的安全標準和評估方法，應對日益復雜的安全挑戰。

結論

研究發現總結

通過對大模型安全關鍵技術的研究，我們發現大模型安全威脅主要分為四大類：數據安全威脅、模型安全威脅、應用安全威脅和系統安全威脅。這些威脅貫穿大模型的全生命周期，從訓練前的數據準備到模型部署后的應用階段。

研究表明，大模型安全防御需構建全方位的多層次防護體系：

數據層面：實施嚴格的數據來源審查、預處理凈化和加密訪問控制
模型層面：采用對抗訓練、后門檢測與清除等技術增強模型魯棒性
應用層面：建立輸入過濾、輸出審核和可控生成技術
系統層面：完善身份認證、供應鏈安全和實時監控機制
合規層面：構建安全評估體系、合規檢查機制和倫理審查框架

大模型安全評估測試方法已形成較為完善的體系，包括風險評估、測試驗證、合規檢查和持續監控四個環節，形成閉環管理。國內已發布三項大模型安全國家標準，為行業發展提供了規范指引。

技術發展建議

加強自主安全能力建設：推進基于人類反饋的強化學習策略，提升大模型自主可控性。通過獎勵模型學習人類評價模式，對大模型進行自動微調，增強安全性和有效性。
發展多模態安全防護技術：隨著大模型向多模態方向發展，應構建統一的跨模態安全評估框架，應對文本、圖像、視頻等多種形式內容的安全風險。
推廣隱私計算技術應用：大力推廣聯邦學習、差分隱私等隱私計算技術在大模型訓練中的應用，實現"數據可用不可見"，平衡數據利用與隱私保護。
建立高效應急響應機制：企業需建立高效的安全應急響應機制，一旦發現惡意行為或潛在安全事件，第一時間進行處置，將威脅扼殺在搖籃里[13]。
推進國際合作與標準共建：積極參與國際標準制定，推動形成全球通用的大模型安全標準和評估方法。如國際標準組織已發布的大語言模型安全風險分類和攻擊分類分級方法，為全球AI安全評估測試提供了新基準[10]。
設立專項基金促進創新：建議設立專項基金促進"AI+安全"創新成果落地，通過技術創新提高安全防護水平，實現安全與發展的良性互動[13]。
構建RUBRICC評估框架：采用RUBRICC框架(Regulatory, Usability, Bias, Reliability, Interoperability, Cost, Codesign-PPIE)對大模型進行全面評估，為政策和部署決策提供科學依據[2]。
加強倫理與價值觀引導：確保大模型具有正確的價值觀，符合社會規則和倫理道德，防止模型在理解和生成內容時出現偏見，導致信息誤導或產生虛假信息。

只有筑牢安全防線、守住合規底線，大模型技術創新才能行穩致遠，為各行業數字化轉型提供有力支持。

參考來源：

Digital Health Policy and Cybersecurity Regulations Regarding Artificial Intelligence (AI) Implementation in HealthcareDigital Health Policy and Cybersecurity Regulations Regarding Artificial Intelligence (AI) Implementation in Healthcare 文獻鏈接
The Accuracy and Capability of Artificial Intelligence Solutions in Health Care Examinations and Certificates: Systematic Review and Meta-AnalysisThe Accuracy and Capability of Artificial Intelligence Solutions in Health Care Examinations and Certificates: Systematic Review and Meta-Analysis 文獻鏈接
[PDF] 大模型關鍵技術與未來發展方向原文鏈接
大模型安全實踐2024白皮書_挑戰_報告_內容 - 搜狐原文鏈接
2024年大模型安全實踐與治理展望 - 遠瞻慧庫原文鏈接
[PDF] 大模型安全實踐(2024) - 信息資源系統原文鏈接
我國學者在大語言模型安全領域取得進展 - 國家自然科學基金委員會原文鏈接
國內外大模型安全技術框架匯總原創 - CSDN博客原文鏈接
SecCorpus: 構建安全領域大模型數據的技術實踐 - 騰訊科恩實驗室原文鏈接
清華大學黃民烈團隊發布安全評估框架促大模型邁向可控可信原文鏈接
張向征大模型安全研究與實踐 - 36氪原文鏈接
2025 AI大模型安全防護AI安全部署實戰指南原文鏈接
要給大家潑盆冷水了使用MCP 絕對不容忽視的一個問題原文鏈接
大模型安全挑戰與攻擊測試研究原文鏈接
大模型的安全挑戰從環境到應用的全生命周期風險解析 - 知乎專欄原文鏈接
[PDF] 大語言模型提示注入攻擊安全風險分析報告原文鏈接
[PDF] 大模型安全漏洞報告原文鏈接
技術實踐百度安全「大模型內容安全」高級攻擊風險評測原文鏈接
必看大模型時代十大網絡安全危機深度剖析 - 安恒信息原文鏈接
淺析大語言模型安全和隱私保護國內外標準和政策原創 - CSDN博客原文鏈接
【Web 大語言模型攻擊簡介】原創 - CSDN博客原文鏈接
[PDF] 人工智能安全治理框架原文鏈接
網宿安全推出大模型安全評估服務,筑牢AI安全防線原文鏈接
...利用大模型進行安全攻防:內附多個應用案例原文鏈接
評測披露大模型內容安全隱患,專家:需像人一樣學習安全本質原文鏈接
大模型安全評估——LLMs Evaluation in Safety - 知乎專欄原文鏈接
大模型安全領域兩項國際標準發布全球AI安全評估測試有了新基準原文鏈接
中國信通院發布大模型安全基準測試報告360智腦綜合排名第一原文鏈接
一站式大模型安全服務原文鏈接
[CSA GCR]大語言模型安全性測試方法 - 發現報告原文鏈接
大模型安全評估框架、維度與實踐指南原創 - CSDN博客原文鏈接
大語言模型系統安全綜述原文鏈接
中倫邀請丨生成式人工智能的法律議題及《網絡數據安全管理條例》... 原文鏈接
三項大模型安全國家標準發布,為行業發展保駕護航原文鏈接
...建議出臺大模型網絡數據安全強制合規要求等文件原文鏈接