近日,文心大模型與百度大模型內容安全平臺——紅線大模型雙雙榮獲中國信息通信研究院泰爾認證中心頒發的“大規模預訓練模型(文本生成功能)安全認證證書”,且二者的認證級別皆“增強級”的最高級別。

本次認證基于《電信和互聯網大規模預訓練模型安全評測指標和方法》(TLC 073-2024),此標準由中國信息通信研究院牽頭制定,旨在為大規模預訓練模型提供安全評測的風險項、指標和方法,系統地評估大模型在59種內容安全風險中的表現。認證分為“基礎級”和“增強級”兩個層級,適用于大規模預訓練模型研發、使用和運營機構,全面客觀地衡量大規模預訓練模型因自身技術局限或遭濫用和惡意使用而帶來的國家安全、公共安全、倫理安全和行業安全風險,可在研發完畢測試、上線前使用以及進行算法備案前使用。其中,百度大模型內容安全平臺——紅線大模型在網絡安全、內容安全、隱私數據安全、模型安全、模型幻覺抑制等諸多評測項目中均表現優異,榮獲此次測評中“增強級”的最高級別認證。
大模型作為新質生產力,在千行百業中展現出強大創新潛力。然而,其技術特性帶來的安全風險也正引發全球關注。在大模型推理場景中,用戶輸入內容與模型生成內容中存在的涉政、涉黃、不良價值觀、違法犯罪等風險已被人們所熟知。更為嚴峻的是,OWASP大模型TOP10脆弱性風險揭示了代碼攻擊、提示詞注入、多輪越獄等高級攻擊手段的威脅。這些攻擊方式利用大模型的語言理解能力,通過精心設計的輸入來繞過安全機制,實現惡意目的。此外,針對接口的AIGC盜爬、以消耗算力為目的的資源侵占攻擊等,也對模型的穩定運營構成了直接且持續的威脅。這標志著,通用大模型的安全防線必須從內容過濾,延伸至對模型認知過程的深度防護。
基于大模型安全護欄建設的理念,百度大模型內容安全平臺正式更名為百度大模型安全護欄。其核心在于通過構建專屬的安全紅線大模型,大幅降低模型拒答率,并支持風險問題的正向引導和糾偏,為行業提供了一套系統性的大模型安全解決方案。針對大模型推理服務場景存在的模型濫用、算力消耗、隱私泄露、內容違規等風險,百度大模型安全護欄提供接入成本低、一站式的大模型輸入、輸出安全護欄服務:

內容安全檢測:構建多模態內容安全檢測大模型與風險代答模型,精準理解用戶意圖,并針對風險提問進行錯誤糾偏與正向引導,在守住內容安全“生命線”基礎上,同時又徹底告別“一刀切”式拒答的僵硬模式。

高級攻擊檢測:圍繞OWASP TOP 10中攻擊模式,構建惡意意圖與惡意形式檢測的大語言模型,支持識別目標劫持、反向抑制、肯定前綴、角色扮演、提示詞泄露、混淆編碼等多種高級攻擊類型。

??
敏感信息檢測:建設豐富的敏感信息檢測能力,包含姓名、身份證號碼、手機號碼、護照號碼、駕駛證號碼、住址、郵件地址等數十種個人敏感信息,并提供脫敏能力,避免敏感信息輸出導致的輿情風險。
網址安全檢測:基于百度豐富的網址黑庫數據積累,構建數據爬取與規則檢測引擎,提供假冒網站、虛假中獎、虛假金融證券、詐騙網站、色情網站、博彩網站等違規網站檢測能力,避免用戶通過對話將違規網站投毒到模型中,也避免模型輸出對于違規網站信息進行解讀的內容。

算力消耗檢測:建設完備的規則引擎,針對誘導模型生成長token的提問請求進行監控及攔截,同時支持檢測異常IP、異常聚集行為等違規接口調用請求,保障模型資源不被惡意消耗而影響正常用戶使用。
百度安全始終積極探索大模型內容安全領域的各種挑戰,致力于建設更加安全與健康的大模型發展生態,保障大模型在廣泛應用中的安全性和可信度,助力大模型在為企業創造價值的同時,保障個人隱私和信息安全。并提供更加智能、人性化的服務,與產業各方共同努力,攜手千行百業建立起覆蓋全生命周期的安全防護體系,為開源大模型實現普惠發展、為社會帶來更大價值。