【AI論文】CipherBank:通過密碼學挑戰探索LLM推理能力的邊界

摘要:大型語言模型(LLMs)已經展現出非凡的能力,尤其是最近在推理方面的進步,如o1和o3,推動了人工智能的發展。盡管在數學和編碼方面取得了令人印象深刻的成就,但在需要密碼學專業知識的領域,LLMs的推理能力仍然有待探索。 在本文中,我們介紹了CipherBank,這是一個全面的基準,旨在評估LLM在密碼解密任務中的推理能力。 CipherBank由2358個精心設計的問題組成,涵蓋了5個域和14個子域中的262個獨特的明文,重點關注需要加密的隱私敏感和現實場景。 從密碼學的角度來看,CipherBank采用了3大類加密方法,涵蓋9種不同的算法,從經典密碼到定制加密技術。 我們在CipherBank上評估了最先進的LLM,例如GPT-4o、DeepSeek-V3和以推理為重點的尖端模型,如o1和DeepSeek-R1。 我們的研究結果顯示,不僅在通用聊天LLM和以推理為重點的LLM之間,而且在當前以推理為重點的模型應用于經典密碼解密任務時的性能方面,推理能力都存在顯著差距,突顯了這些模型在理解和操縱加密數據方面面臨的挑戰。 通過詳細的分析和錯誤調查,我們提供了幾個關鍵的觀察結果,揭示了密碼推理中LLM的局限性和潛在的改進領域。 這些發現強調了LLM推理能力不斷進步的必要性。Huggingface鏈接:Paper page,論文鏈接:2504.19093

研究背景和目的

研究背景

隨著大型語言模型(LLMs)的迅速發展,它們在自然語言處理(NLP)領域的各項任務中展現出了前所未有的能力。特別是在理解和生成人類語言方面,LLMs已經取得了顯著的突破。然而,盡管LLMs在數學、編碼等邏輯和計算密集型任務上表現出色,它們在處理需要特定領域專業知識的任務時仍面臨挑戰。特別是在密碼學領域,由于加密和解密過程涉及復雜的算法和邏輯推理,傳統上被視為是計算機科學和數學領域的難題。隨著數字時代的到來,密碼學在保護信息安全方面發揮著至關重要的作用,而LLMs在密碼學推理能力上的表現卻鮮有研究。

密碼學不僅要求模型具備識別和理解加密模式的能力,還需要能夠準確推斷出解密密鑰并應用相應的解密算法。這種能力對于開發能夠處理涉及加密信息的現實世界應用至關重要,如隱私保護通信、安全身份驗證和數據完整性驗證等。然而,現有的LLM基準測試主要集中在數學、邏輯推理和編碼能力上,缺乏對密碼學推理能力的全面評估。

研究目的

本文旨在填補這一研究空白,通過引入CipherBank這一綜合基準測試,全面評估LLMs在密碼解密任務中的推理能力。CipherBank旨在模擬現實世界中需要加密的場景,通過提供一系列精心設計的密碼問題,挑戰LLMs在解密過程中的模式識別、算法反向工程和上下文安全約束理解等關鍵能力。通過這一基準測試,本文希望揭示當前LLMs在密碼學推理方面的局限性,并為未來的模型改進提供指導。

研究方法

CipherBank基準測試構建

CipherBank基準測試由2358個密碼問題組成,這些問題基于262個獨特的明文,涵蓋了5個域(如個人隱私數據、企業敏感數據、公共安全數據、金融資產數據和互聯網記錄)和14個子域(如身份信息、健康信息、商業信息等)。為了確保基準測試的實用性和現實性,CipherBank采用了多種加密算法,包括替代密碼(如Rot13、Atbash、Polybius和Vigenère)、轉置密碼(如Reverse和SwapPairs)以及自定義混合算法。這些算法的難度級別從基礎到專家級不等,以確保測試能夠全面評估LLMs在不同復雜度下的解密能力。

模型評估與實驗設置

為了全面評估LLMs的密碼推理能力,本文選取了18種最先進的LLM模型進行實驗,包括開源聊天模型(如Mixtral-8x22B、Qwen2.5-72B-Instruct、Llama-3.1-70B-Instruct等)、閉源模型(如GPT-4o、Gemini-1.5-Pro、Claude-Sonnet-3.5等)和以推理為重點的模型(如QwQ-32B-Preview、DeepSeek-R1、o1等)。在評估過程中,本文采用了3-shot測試方法,即向模型提供三個明文-密文對作為示例,然后要求模型根據這些示例推斷出加密規則并解密新的密文。

為了量化模型的解密性能,本文采用了準確率作為主要評價指標,同時還計算了Levenshtein相似度以提供更細致的性能評估。準確率衡量的是模型正確解密的案例占總測試案例的比例,而Levenshtein相似度則通過計算解密輸出與原始明文之間的編輯距離來評估兩者之間的相似度。

研究結果

LLMs在密碼推理中的表現差異

實驗結果顯示,不同類型的LLM在密碼解密任務中的表現存在顯著差異。以推理為重點的模型(如o1和DeepSeek-R1)在解密任務中普遍表現優于通用聊天模型(如GPT-4o和DeepSeek-V3)。然而,即使是表現最好的模型,在解密人類密碼分析師可以輕松解決的任務時,準確率也遠低于人類水平,這表明LLMs在密碼推理方面仍有很大的提升空間。

密碼類型和長度對解密性能的影響

本文還分析了密碼類型和明文長度對LLM解密性能的影響。結果顯示,隨著明文長度的增加,大多數模型的解密性能顯著下降。此外,不同類型的密碼對模型性能的影響也不同。例如,替代密碼通常比轉置密碼更容易被模型解密,而自定義混合算法則對模型提出了更高的挑戰。

錯誤分析

通過對解密錯誤的詳細分析,本文揭示了LLMs在密碼推理中的幾種常見錯誤類型,包括遺漏/插入錯誤、名稱解密錯誤、語義推斷錯誤、重組錯誤和推理失敗等。這些錯誤類型不僅反映了模型在密碼推理中的局限性,也為未來的模型改進提供了有價值的見解。

研究局限

盡管本文在評估LLMs的密碼推理能力方面取得了重要進展,但仍存在一些局限性。首先,由于閉源模型的訪問限制,本文只能通過API調用來評估這些模型,這可能引入潛在的可變性。其次,CipherBank主要關注經典加密算法,而現代加密技術可能引入更復雜的挑戰,這些挑戰超出了當前模型的能力范圍。因此,隨著加密技術的不斷發展,CipherBank需要不斷更新和擴展以涵蓋更廣泛的加密場景。

未來研究方向

基于本文的研究結果和發現,未來的研究可以從以下幾個方面展開:

  1. 增強LLMs的密碼推理能力:通過改進模型架構、訓練策略或引入額外的知識表示方法,增強LLMs在理解和解密加密信息方面的能力。

  2. 擴展CipherBank基準測試:隨著加密技術的不斷發展,CipherBank需要不斷更新和擴展以涵蓋更廣泛的加密場景和算法。此外,還可以引入更多的評價指標和測試方法來更全面地評估LLMs的密碼推理能力。

  3. 跨領域知識整合:探索如何將密碼學領域的專業知識與其他領域的知識相結合,以提高LLMs在解決跨領域問題時的綜合能力。例如,可以將密碼學知識與自然語言處理、邏輯推理和數學計算等領域的知識相結合,以開發更強大的多模態LLMs。

  4. 提高模型的魯棒性和可解釋性:通過引入魯棒性訓練和可解釋性技術,提高LLMs在處理復雜和不確定性任務時的穩定性和可解釋性。這將有助于增強用戶對LLMs的信任度并推動其在現實世界中的應用。

綜上所述,本文通過引入CipherBank基準測試,全面評估了LLMs在密碼解密任務中的推理能力,并揭示了當前模型在這一領域的局限性和未來的研究方向。隨著LLMs技術的不斷發展和完善,我們有理由相信它們將在更廣泛的領域中發揮更大的作用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78850.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78850.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78850.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

藝術與科技的雙向奔赴——高一鑫榮獲加州聯合表彰

2025年4月20日,在由M.A.D公司協辦的“智藝相融,共赴價值巔峰”(Academic and Artistic Fusion Tribute to the Summit of Value)主題發布會上,音樂教育與科技融合領域的代表人物高一鑫,因其在數字音樂教育與中美文化交流方面的杰出貢獻,榮獲了圣蓋博市議員Jorge Herrera和爾灣市…

【深度學習的靈魂】圖片布局生成模型LayoutPrompt(1)

🌈 個人主頁:十二月的貓-CSDN博客 🔥 系列專欄: 🏀《深度學習理論直覺三十講》_十二月的貓的博客-CSDN博客 💪🏻 十二月的寒冬阻擋不了春天的腳步,十二點的黑夜遮蔽不住黎明的曙光 目…

Compose筆記(二十)--TextField

這一節主要了解一下Compose的TextField,TextField 是一個用于接收用戶文本輸入的 UI 組件,允許用戶通過鍵盤輸入、編輯或刪除文本。簡單用法總結如下: API value:當前輸入的文本內容。 onValueChange 含義:當用戶輸入文本時觸發的回調函數,參…

在Linux虛擬機下使用vscode,#include無法跳轉問題

總結:需要通過Linux指令來添加編譯器和壓縮文件,解壓,這樣獲得的編譯器會具有可執行權限類似于 -rwxr-xr-x 1 user user 12345 Apr 26 14:22 myscript.sh 如果你直接從window中拖入文件到Linux文件下,你需要自己來再度開啟可編譯…

ArcGIS+GPT:多領域地理分析與決策新方案

技術點目錄 AI大模型應用ArcGIS工作流程及功能prompt的使用技巧AI助力工作流程AI助力數據讀取AI助力數據編輯與處理AI助力空間分析AI助力遙感分析AI助力二次開發AI助力科研繪圖ArcGISAI綜合應用了解更多 ——————————————————————————————————…

基礎術語說明

車間:工廠內集中進行加工或裝配的獨立空間,配備設備、工具及人員,是生產活動的核心載體。 比如裝配車間、總裝車間、油漆車間等 生產線:以流水作業形式將原材料轉化為成品的設備與人員的組合系統,強調連續性和效率。…

Splunk 使用Role 實現數據隔離

很多人知道 Splunk 有很多自帶的Role, 今天我就要說說定制化的Role: 1: 在創建新role 的界面: 2: 在如下的界面,可以定制allow index name: 3: 創建好新Role 后,在SAML 添加新的group 的時候,就可以看到Role 給某個group: 4: 這樣一個特定組的人來申請Splunk 權限,就可…

利用李雅普諾夫穩定性理論設計模型參考自適應系統(2.0)

上一篇介紹了利用李雅普諾夫穩定性理論設計模型參考自適應系統,通過在被控對象前面添加一個可調增益,然后利用李雅普諾夫穩定性理論設計增益的自適應率,使得被控對象輸出與參考模型輸出一致。本文將介紹在系統結構中引入前饋和反饋的結構&…

前端封裝WebSocket工具n

Web API 提供的 WebSocket 類,封裝一個 Socket 類 // socket.js import modal from /plugins/modal const baseURL import.meta.env.VITE_APP_BASE_WS; const EventTypes [open, close, message, error, reconnect]; const DEFAULT_CHECK_TIME 55 * 1000; // 心…

TCP和UDP傳輸層協議

TCP(Transmission Control Protocol)和 UDP(User Datagram Protocol)是兩種常見的傳輸層協議,它們在網絡通信中發揮著不同的作用。二者在連接建立、可靠性、傳輸效率等方面存在顯著差異,適用于不同的應用場…

空域倫理與AI自主邊界的系統建構

在AI無人系統逐步參與城市空域治理的過程中,系統的“自主性”已不再僅是技術指標,而是直接影響合規性、安全性與社會接受度的倫理邊界議題。AI決策系統是否擁有“強干預能力”?行為觸發責任應歸屬何方?算法可否調優至“自我糾偏”…

在原生代碼(非webpack)里使用iview的注意事項

最近公司在做一個項目,使用的框架是iview,使用過程中同事遇到一些問題,這些問題對于有些同學來說根本就不是問題,但總會有同學需要,為了幫助不太會用的同學快速找到問題,做了如下整理: 下載vue,iview.min.j…

java代碼混淆

生成jar的時候混淆 目前最常用的Proguard,網上有很多介紹的文章,這種安全性較低 對已經生成的jar進行加密 加密庫:https://github.com/li571312729/classfinal 測試對jar進行加密 加密后如果正常調用的話會失敗 加密后jar反編譯查看不到代碼 使用密碼才能調用機…

【Linux】第十三章 訪問Linux文件系統

目錄 1. 存儲設備是什么?怎么理解分區和格式化? 2. 文件系統是什么? 3. 掛載是什么?掛載點是什么? 4. 怎么理解塊設備? 5. 在SATA附加存儲中,第一磁盤上的第一個分區和第二磁盤的第二個分區…

MCP 服務器搭建【stdio 類型】實現上市公司年報查詢總結,配合 Cherry Studio使用簡單

代碼解釋 這段 Python 代碼的主要功能是搭建一個基于 FastAPI 的 MCP 服務器,用于處理通過股票代碼查詢上市公司年報的請求,實現服務器向客戶端的實時消息推送。以下是對代碼各部分的詳細解釋: 完整代碼+使用 Cherry Studio 調用 MCP 服務器的方法,放在文章最后了 1. 導…

第六節:軟件安裝

理論知識 軟件安裝的方式:在 Linux 系統中,常見的軟件安裝方式有源碼安裝、在線安裝、deb 包安裝、RPM 包安裝、使用 Snap 管理軟件包等。不同的安裝方式適用于不同的軟件和場景。源碼安裝:源碼安裝是指從軟件的源代碼開始,進行編…

ubantu部署yolov5(第四集:模型加速)

參考鏈接: GitHub - ultralytics/yolov5: YOLOv5 🚀 in PyTorch > ONNX > CoreML > TFLite TFLite,ONNX,CoreML,TensorRT Export -Ultralytics YOLO Docs 使用Neural Magic 的 DeepSparse 部署YOLOv5 -Ultralytics YOLO 文檔 sparseml/inte…

flutter 專題 五十六 Google 2020開發者大會Flutter專題

由于疫情的原因,今年的Google 開發者大會 (Google Developer Summit) 在線上舉行,本次大會以“代碼不止”為主題,全面介紹了產品更新以及一系列面向本地開發者的技術支持內容。我比較關注的是移動開發,在本次大會上,關…

開源模型應用落地-qwen模型小試-Qwen3-8B-快速體驗-pipeline方式(二)

一、前言 阿里云最新推出的 Qwen3-8B 大語言模型,作為國內首個集成“快思考”與“慢思考”能力的混合推理模型,憑借其 80 億參數規模及 128K 超長上下文支持,正在重塑 AI 應用邊界。該模型既可通過輕量化“快思考”實現低算力秒級響應,也能在復雜任務中激活深度推理模式,以…

「動態規劃::背包」01背包 / AcWing 2(C++)

概述 AcWing 2: 有 N 件物品和一個容量是 V 的背包。每件物品只能使用一次。 第 i 件物品的體積是 v[i],價值是 w[i]。 求解將哪些物品裝入背包,可使這些物品的總體積不超過背包容量,且總價值最大。 輸出最大價值。 輸入格式 第一…