論文閱讀筆記——Large Language Models Are Zero-Shot Fuzzers

TitanFuzz 論文
深度學習庫(TensorFlow 和 Pytorch)中的 bug 對下游任務系統是重要的,保障安全性和有效性。在深度學習(DL)庫的模糊測試領域,直接生成滿足輸入語言(例如 Python )語法/語義和張量計算的DL API 輸入/形狀約束的深度學習程序具有挑戰性。此外,深度學習 API 可能包含復雜的輸入條件約束,難以在沒有人工干預的情況下生成符合條件的輸入用例。TitanFuzz 是首個直接利用大語言模型(LLM)生成測試程序來模糊測試DL庫的方法。

API 級模糊測試:僅針對孤立 API 進行測試,無法暴露由 API 調用鏈引發的缺陷;模糊級模糊測試:缺乏多樣化 API 序列,如 Muffin 需要手動注釋考慮的深度學習 API 的輸入/輸出限制,并使用額外的 reshaping 操作保證有效連接,以及無法生成任意代碼。
在這里插入圖片描述

  1. log 函數應該為負數產生 NaN,CPU 調用 matrix_exp 時應該包含 NaN 值,但 GPU 調用時不輸出任何 NaN 值。
  2. Bug:在 CPU 上計算時分正負號,導致分別出現正無窮和負無窮。正常:在 GPU 上計算時不分正負號,1/0 為正無窮。
傳統LLM-based
基于規則/隨機變異基于分布概率生成規則->統計建模
結構化輸入基于語義理解語法->語義
人工設計策略Prompt
顯式定義張量/類型約束隱式學習 API 約束標注->推理
單 API任意組合代碼覆蓋率

LLM 為差分測試提供語義合理、適配不同后端的測試輸入。
在這里插入圖片描述

  1. 提供 step-by-step 的 prompt engineering,調用 codex 生成直接借用目標 API 的代碼片段。
  2. 使用進化模糊算法,生成新的代碼。
  3. 差分測試,在不同后端上執行,識別潛在錯誤。
    在這里插入圖片描述
    Prompt 中包含了目標庫和目標 API 定義(爬蟲從官方文檔爬取)并設計了分布指令,按照 Task 的順序執行。原始種子程序從 Codex 中采樣得到。
    在這里插入圖片描述

通過 Codex 生成初始種子,用 InCoder 去預測 mask 的代碼片段以保持語義的連貫性,其中代碼片段通過 Multi-Armed Bandit(MAB) 算法動態學習操作符優先級策略,并用 < s p a n > <span> <span> 覆蓋,采樣策略選擇了 Top-N;
算子:

  • 參數(augment):選擇目標 API 中的參數 Mask,可以是已寫的,也可以是未寫的;
  • 前綴(prefix):在目標 API 調用前插入代碼段,并 Mask 掉一部分前綴;
  • 后綴(suffix):在目標 API 調用后插入代碼段,并 Mask 掉一部分后綴;
  • 方法(method):Mask API 調用,使用新的 API;

MAB:
f ( x ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α ? 1 ( 1 ? x ) β ? 1 f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)=Γ(α)Γ(β)Γ(α+β)?xα?1(1?x)β?1

  • 初始化每個變異操作符 𝑚 的成功次數 𝑚.S 和失敗次數 𝑚.F 為1,即每個操作 𝑚 的先驗分布被假設為 Beta(1, 1),即均勻分布。
  • 在觀察到 𝑚.S-1 次成功和 𝑚.F-1 次失敗后,更新操作 𝑚 的后驗分布為 Beta(𝑚.S, 𝑚.F)。
  • 為了選擇一個操作(arm),從每個操作的后驗分布中抽取一個樣本 𝜃𝑚,然后選擇具有最大樣本值的操作(表示它具有最高的成功率概率)。
  • 在使用 LLMs 生成代碼后,根據生成的程序的執行狀態,更新所選擇的變異操作的后驗分布。與隨機選擇變異操作相比,這種方法可以幫助識別有助于生成更有效和獨特代碼片段的變異操作。
  • 需要注意的是,最佳的變異操作可能因不同的目標API而異,因此為每個針對一個API的演化模糊測試的端到端運行開始一個單獨的MAB游戲,并重新初始化操作符的先驗分布。

Fitness Score: F i t n e s s F u n c t i o n ( C ) = D + U ? R FitnessFunction(C)=D+U-R FitnessFunction(C)=D+U?R

  • 數據流圖深度 (D):衡量代碼片段中數據依賴關系的復雜性。
  • 唯一API調用數量 (U):鼓勵使用更多不同的庫API。
  • 重復API調用懲罰 ?:減少重復API調用的影響,提高模糊測試的效率。

Differential Testing:

  • Wrong Computation:在 CPU 和 GPU 上執行相同代碼,記錄所有中間變量,為了區分真正的錯誤和非關鍵差異,TitanFuzz 使用容差閾值來檢查值是否顯著不同。計算值的差異可能表明庫 API 的不同后端實現或不同 API 之間的交互存在潛在的語義錯誤。
  • Crash:在程序執行過程中,監控是否有段錯誤、終止、INTERNAL_ASSERT_FAILED 等異常發生。

實驗

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述
經過廣泛的評估,TitanFuzz在兩個流行的深度學習庫(PyTorch和TensorFlow)上表現出了顯著的改進,包括:

  • 增加了庫API的數量和代碼覆蓋率。
  • 直接利用現代大型預訓練語言模型進行模糊測試的前景。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83597.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83597.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83597.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

cocos3.X的oops框架oops-plugin-excel-to-json改進兼容多表單導出功能

在使用oops框架的過程中&#xff0c;它的導出數據并生成數據結構的插件oops-plugin-excel-to-json有些小的坑點&#xff0c;為滿足我個人習慣&#xff0c;對此部分進行了一個小的修改&#xff0c;有需要的拿去用&#xff0c;記錄下供大家參考&#xff1b; 一、配置&#xff1a;…

解決IDE編譯JAVA項目時出現的OOM異常問題

出現的異常如圖&#xff1a; java.lang.0utOfMemoryError:Java heap space 解決方案&#xff1a; 文件 --> 設置 搜索 編譯器&#xff08;就點擊編譯器這行&#xff09;&#xff0c;找到構建進程&#xff0c;共享堆大小&#xff0c;設置大一些&#xff0c;例如 2048 MB。 …

【Linux內核】設備模型之udev技術詳解

目錄 1. udev技術概述 2. 技術層次分析 2.1 內核層交互 2.2 規則引擎層 2.3 用戶空間實現 3. 關鍵技術要點 3.1 動態設備節點管理 3.2 熱插拔處理 3.3 模塊化規則系統 3.3.1. 變量替換功能 3.3.2. 條件判斷能力 3.3.3. 實現機制 3.3.4 應用場景 3.3.5 擴展能力 4…

群論在現代密碼學中的應用探索與實踐 —— 從理論到C語言實現

1. 引言&#xff1a;數字時代的信息安全挑戰 隨著互聯網和數字技術的快速發展&#xff0c;信息安全問題變得日益嚴峻。無論是個人隱私保護&#xff0c;還是企業數據安全&#xff0c;乃至國家安全&#xff0c;都依賴于有效的加密技術保障信息的機密性和完整性。網絡攻擊、數據泄…

前端開發處理‘流式數據’與‘非流式數據’,在接收完整與非完整性數據時應該如何渲染和使用

在前端開發中&#xff0c;處理 非流式數據 和 流式數據 的方式不同。根據是否完整接收數據、是否實時渲染的需求&#xff0c;可以分為以下四種典型場景&#xff1a; 一、四類常見場景總結 類型數據完整性是否實時渲染適用技術/方法A完整數據&#xff08;一次性返回&#xff09…

thymeleaf直接調用Spring Bean中定義的方法

thymeleaf中可以使用表達式工具對象&#xff0c;通過符號直接調Spring Bean中定義的方法 Spring Bean Component public class InvokeMethodBean {public String fun() { return "fun";} }thymeleaf中調用 <div th:text"${invokeMethodBean.fun()}"&…

虛擬斯德哥爾摩癥候群:用戶為何為缺陷AI辯護?

當韓國用戶美咲連續第七次為虛擬男友的算法錯誤辯解&#xff1a;“他只是太累了才會說傷人的話”&#xff0c;心理醫生在診斷書上寫下“數字依賴伴隨認知失調”。這種現象并非孤例——斯坦福2024年研究顯示&#xff0c;62%長期使用情感AI的用戶會主動為系統缺陷尋找合理化解釋&…

tryhackme——Abusing Windows Internals(進程注入)

文章目錄 一、Abusing Processes二、進程鏤空三、線程劫持四、DLL注入五、Memory Execution Alternatives 一、Abusing Processes 操作系統上運行的應用程序可以包含一個或多個進程&#xff0c;進程表示正在執行的程序。進程包含許多其他子組件&#xff0c;并且直接與內存或虛…

[藍橋杯]密碼脫落

密碼脫落 題目描述 X 星球的考古學家發現了一批古代留下來的密碼。 這些密碼是由 A、B、C、D 四種植物的種子串成的序列。 仔細分析發現&#xff0c;這些密碼串當初應該是前后對稱的&#xff08;也就是我們說的鏡像串&#xff09;。 由于年代久遠&#xff0c;其中許多種子…

Python繪圖庫及圖像類型

折線圖&#xff08;plot&#xff09; 繪圖庫介紹 Python中繪制折線圖的全面指南_python繪制折線圖-CSDN博客https://blog.csdn.net/2301_81064905/article/details/139689644 核心作用說明趨勢分析揭示數據隨時間推移的上升/下降趨勢、周期性波動或轉折點變化對比在單一圖表…

4種常見Python設計愛心創意實現方法

在Python中設計愛心創意有多種實現方式&#xff0c;以下介紹4種常見方法&#xff0c;并附上完整代碼&#xff1a; 方法1&#xff1a;使用數學方程繪制&#xff08;Matplotlib&#xff09; ??原理??&#xff1a;使用參數方程繪制心形曲線 ??效果??&#xff1a;光滑的數…

【Unity】R3 CSharp 響應式編程 - 使用篇(二)

一、通用的事件監聽用法 using System;using R3;using UnityEngine;namespace Aladdin.Standard.Observable.Common{public class CommonObservable : MonoBehaviour{// 默認會調用1次public SerializableReactiveProperty<int> serializableReactiveProperty;…

【原理解析】為什么顯示器Fliker dB值越大,閃爍程度越輕?

顯示器Fliker 1 顯示器閃爍現象說明2 Fliker量測方法2.1 FMA法2.2 JEITA法問題答疑&#xff1a;為什么顯示器Fliker dB值越大&#xff0c;閃爍程度越輕&#xff1f; 3 參考文獻 1 顯示器閃爍現象說明 當一個光源閃爍超過每秒10次以上就可在人眼中產生視覺殘留&#xff0c;此時…

3.需求分析與測試用例設計方法

設計方法 測試點 定義: 測試時需要考慮的可測試方面&#xff0c;不同公司可能稱為"檢查點"或其它名稱特點: 是需求分析的最后一個環節&#xff0c;用于解決"測哪里"和"怎么測"的問題舉例說明: 如同打架時的各種招數&#xff0c;如直接約架、設…

IEC 61347-1:2015 燈控制裝置安全標準詳解

IEC 61347-1:2015燈控制裝置安全標準詳解 IEC 61347-1:2015 是國際電工委員會&#xff08;IEC&#xff09;發布的燈控制裝置第1部分&#xff1a;通用要求和安全要求的核心標準&#xff0c;為各類照明用電子控制設備設定了全球通用的安全基準。該標準適用于獨立式或內置于燈具/…

從 GPT 的發展看大模型的演進

這是一個技術爆炸的時代。一起來看看 GPT 誕生后&#xff0c;與BERT 的角逐。 BERT 和 GPT 是基于 Transformer 模型架構的兩種不同類型的預訓練語言模型。它們之間的角逐可以從 Transformer 的編碼解碼結構角度來分析。 BERT&#xff08;Bidirectional Encoder Representatio…

多目標粒子群優化算法(MOPSO),用于解決無人機三維路徑規劃問題,Matlab代碼實現

多目標粒子群優化算法&#xff08;MOPSO&#xff09;&#xff0c;用于解決無人機三維路徑規劃問題&#xff0c;Matlab代碼實現 目錄 多目標粒子群優化算法&#xff08;MOPSO&#xff09;&#xff0c;用于解決無人機三維路徑規劃問題&#xff0c;Matlab代碼實現效果一覽基本介紹…

貪心算法應用:集合覆蓋問題詳解

貪心算法與集合覆蓋問題詳解 貪心算法在組合優化問題中展現出獨特優勢&#xff0c;集合覆蓋問題&#xff08;Set Cover Problem&#xff09;是其中的經典案例。本文將用2萬字全面解析貪心算法在集合覆蓋/劃分中的應用&#xff0c;涵蓋算法原理、正確性分析、Java實現、復雜度證…

MCP:讓AI工具協作變得像聊天一樣簡單 [特殊字符]

想象一下,你正在處理一個項目,需要從A平臺查看團隊討論,從B平臺獲取客戶信息,還要在GitHub上檢查代碼進度。傳統做法是什么?打開三個不同的網頁,在各個平臺間來回切換,復制粘貼數據,最后還可能因為信息分散而遺漏重要細節。 聽起來很熟悉?這正是當前工作流程的痛點所…

docker不用dockerfile

好的&#xff01;既然你不想使用 Dockerfile&#xff0c;我們就完全不寫 Dockerfile&#xff0c;改用你 Leader 提到的思路&#xff1a; 用基礎鏡像啟動一個容器 → 手動在容器里安裝依賴和復制項目 → 保存為新鏡像 這個方式更直觀&#xff0c;就像“你進入容器自己配置環境&a…