《娜璋帶你讀論文》系列主要是督促自己閱讀優秀論文及聽取學術講座,并分享給大家,希望您喜歡。由于作者的英文水平和學術能力不高,需要不斷提升,所以還請大家批評指正,非常歡迎大家給我留言評論,學術路上期待與您前行,加油。
該文是貴大0624團隊論文學習筆記,分享者鐘睿杰同學,未來我們每周至少分享一篇論文筆記。前一篇博客總結了基于大模型的威脅情報分析與知識圖譜構建論文。這篇文章將帶來EuroS&P’25弗吉尼亞理工大學和加州大學伯克利分校——基于大模型的威脅情報知識圖譜自動構建系統(CTINEXUS),本文的主要貢獻是實現了在數據受限條件下的高效CTI知識抽取與高質量網絡安全知識圖譜,能僅通過極少的標注示例即可適應多種本體體系。此外,由于我們還在不斷成長和學習中,寫得不好的地方還請海涵,希望這篇文章對您有所幫助,這些大佬真值得我們學習。fighting!
- 歡迎關注作者新建的『網絡攻防和AI安全之家』知識星球(文章末尾)
文章目錄
- 一、摘要
- 二、研究背景與動機
- 三、本文模型
- 1.Overview
- 2.Cybersecurity Triplet Extraction
- 3.Hierarchical Entity Alignment
- 4.Long-Distance Relation Prediction
- 四、實驗評估
- 1.與主流方法對比
- 2.各階段優化分析
- 五、結論與展望
原文作者:Yutong Cheng, Osama Bajaber, Saimon Amanuel Tsegai, Dawn Song, Peng Gao(Virginia Tech,UC Berkeley)
原文標題:CTINEXUS: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models
原文鏈接:https://arxiv.org/abs/2410.21060
發表會議:2025 IEEE European Symposium on Security and Privacy (Euro S&P)
筆記作者:貴大0624團隊 鐘睿杰
開源代碼:https://github.com/peng-gao-lab/CTINexus
一、摘要
網絡威脅情報(Cyber Threat Intelligence, CTI)報告中的文本描述,如安全文章與新聞報道,是網絡威脅知識的重要來源,對于組織掌握快速演化的威脅態勢至關重要。然而,當前的CTI知識抽取方法在靈活性與通用性方面存在明顯不足,常導致知識抽取結果不準確或不完整。語法解析方法依賴固定規則與詞典,難以適應新的威脅類型和本體結構;而模型微調方法則依賴大量人工標注數據,限制了其在低資源場景下的可擴展性。
為彌合這一差距,本文提出了一種新型框架CTINexus,該框架基于大型語言模型(LLMs)的優化上下文學習(In-Context Learning, ICL)機制,實現在數據受限條件下的高效CTI知識抽取與高質量網絡安全知識圖譜(Cybersecurity Knowledge Graph, CSKG)構建。 與傳統方法不同,CTINexus無需大量訓練數據或復雜的參數調優,僅通過極少的標注示例即可適應多種本體體系。這一能力的實現依賴以下關鍵技術:
- (1)自動化構建提示詞的策略,結合最優示例檢索,支持多類別安全實體與關系的高效抽取;
- (2)分層實體對齊方法,對抽取得到的知識進行規范化與去冗余處理;
- (3)遠距離關系預測機制,用于補全知識圖譜中的缺失鏈接。
在150份來自10個平臺的真實CTI報告上開展的大規模實證研究顯示,CTINexus在構建準確、完整的CSKG方面顯著優于現有方法,充分展示了其作為一種高效、可擴展的動態威脅分析解決方案的潛力。
二、研究背景與動機
隨著網絡攻擊的日益復雜和持續演化,高質量的網絡威脅情報(Cyber Threat Intelligence, CTI)成為構建防御能力的關鍵。CTI 報告(如APT分析、威脅通報)中通常蘊含著豐富的攻擊者、工具、目標、攻擊方式等實體信息,但大多以非結構化自然語言形式存在。
當前存在幾種方法能自動提取來自網絡威脅情報(CTI)的安全知識并構建網絡安全知識圖譜(CSKG)。基于語法解析的方法依賴于固定的依賴規則和手工制作的詞典來解析句子的語法結構,并提取關鍵的主謂賓三元組。基于微調的方法利用預訓練的變換器,并在標記的CTI數據集上對其進行微調,以識別語義角色并提取實體和關系。
然而,這些方法存在幾個主要缺陷,尤其是在面對不斷變化的威脅環境時缺陷如下:
- 缺乏靈活性和普遍適用性:這些方法中的許多都是針對特定的網絡安全本體量身定制的,關注于固定的實體和關系類型。它們很難推廣到新的本體和新興威脅及術語。固定規則在適應新模式上靈活性有限,并且需要手動創建和維護。
- 過度依賴數據標注:模型微調需要大量標注過的網絡威脅情報(CTI)語料庫數據。這些數據在安全領域中稀缺,特別是對于缺乏注釋的新威脅,難以適應新興威脅和本體結構變化。
- 信息不準確和不完整:由于安全背景的特殊性和缺乏深入分析,這些方法通常生成低質量的知識圖譜(CSKG),這些圖譜是不完整、不準確和斷開的,難以支撐高質量威脅建模和響應。
在當前APT威脅情報結構化研究中,已有方法如Extractor、TTPDrill、LADDER等在信息提取方面取得了一定進展。然而,正如圖中所示,這些方法在處理同一份CTI報告時仍存在以下顯著問題:
- 實體對齊缺失:例如攻擊組織、惡意軟件、目標實體等在不同句子中未能建立明確的跨句對齊或歸一化鏈接,導致圖譜構建碎片化。
- 關系抽取不完整:許多關鍵的行為鏈關系未被識別或遺漏,嚴重影響了對攻擊鏈的理解與推理。如實體邊界錯誤(如"registry values and ransom note"被合并)。
- 上下文理解薄弱:多跳關系(間接行為因果鏈)與同義事件的抽象歸并能力不足,限制了攻擊模式的完整還原, 如子圖間缺乏關聯(如"威脅組織"與"利用的漏洞"無顯式關系)。
為突破上述瓶頸,本文旨在構建一個數據高效、可泛化、無需微調的新框架,借助大語言模型(Large Language Models, LLMs)的上下文學習能力(In-Context Learning, ICL),自動從CTI文本中抽取實體與關系,構建結構化的CSKG,從而支持安全分析與自動防御。
三、本文模型
1.Overview
本文提出CTINexus框架,基于LLM上下文學習(ICL)實現數據高效的CSKG構建,主要創新如下:
- ICL優化的信息抽取機制
利用kNN檢索選取與目標CTI報告相似的示例構造提示(prompt),結合本體知識,指導LLM抽取實體-關系三元組,避免冗長對話式提問,顯著減少token消耗。 - 分層實體對齊機制(圖4)
粗粒度對齊通過ICL對實體進行類型分類(如Threat Actor、Malware等);精細化對齊基于向量嵌入合并語義相似的實體,并設計IOC保護機制避免誤合并(如IP地址與惡意軟件名混淆)。 - 遠程實體關系推理(圖5)
基于子圖中的度中心性選出核心實體,通過ICL推理這些中心節點與主題節點(topic entity)之間的隱式關系,連接原本離散的子圖,提升CSKG的連通性。
圖2展示了CTINEXUS的整體流程,展示從CTI報告輸入到三元組抽取、實體融合、遠程推理的全流程。共分為三大階段:
-
Phase 1: 安全三元組抽取(Cybersecurity Triplet Extraction)
輸入為一篇CTI報告;通過kNN檢索相似示例報告;構造統一ICL提示(instruction + examples + query),由LLM直接輸出所有相關三元組;圖3展示了與傳統多輪提問相比,CTINEXUS的“單輪抽取”在效率與準確性上明顯優越。 -
Phase 2: 分層實體對齊(Hierarchical Entity Alignment)
粗粒度使用ICL模板對triplet中主客體進行實體類型分類(如圖4所示);細粒度使用text-embedding-3-large模型嵌入同類實體,合并相似度高于閾值(0.6)的實體。 -
Phase 3: 長距離關系推理(Long-Distance Relation Prediction)
圖5中采用圖結構分析選出各子圖的中心實體;使用ICL模板構造問題推理這些中心實體與topic entity之間的關系,補全跨段落或跨句式的隱式鏈接。
該框架整合了 LLM 推理能力、上下文對齊機制與圖結構分析手段,形成了端到端、高魯棒性的網絡威脅情報抽取與增強方法。下文將對各階段進行更細致的說明。
2.Cybersecurity Triplet Extraction
圖3對比展示了 CTINexus 所提出的基于上下文學習(ICL)的威脅情報抽取方法(左)與傳統多輪問答式抽取方法(右)的核心差異。
- 左側CTINexus: 將抽取任務設定為結構化三元組識別,模型以“網絡安全分析員”的角色接收任務指令,并依據安全本體(如 Threat Actor、Action、Vulnerability 等)進行類型約束。通過 KNN 檢索獲得最相關的 K 個示例,構造成 Few-shot Prompt,其中包含示例、標簽與待分析文本。模型一次性完成推理并輸出 JSON 格式結果,實現高效的一體化信息抽取。
- 右側對比方法:傳統多輪問答式方案將任務拆分為多個子任務:攻擊目標提取、攻擊者提取、實體關系識別等,每個子任務獨立設計 Prompt 并分別調用模型。該方法需多輪交互,抽取過程碎片化,不僅效率低下,還可能導致結果間語義不一致。
有圖可知,CTINEXUS在“Instruction + Examples + Query”結構中的信息濃縮能力,避免冗余問答與格式誤差。
3.Hierarchical Entity Alignment
圖4為實體對齊流程圖,細化了從類型標注、聚類到安全過濾的步驟,IOC保護機制有效避免誤合并關鍵實體(如CVE ID、IP地址等)。
在對齊部分,我們首先會使用LLM基于左側的提示詞和本體設置對每個實體進行一個粗粒度的分類,映射到某一個類別之中,在對每一個類別里面的實體進行細粒度的分類,使用分層算法進行對齊。
- 粗粒度實體分類:為了提供結構化的歸類基礎,系統預定義了一個涵蓋 20 類核心安全要素的本體(CSKG Ontology),例如 Threat Actor、Vulnerability、Exploit Target、File 等。對于每一個三元組中的實體,我們通過 Few-shot Prompt 的方式,引導大模型對其 subject 與 object 進行初步分類,從而將實體統一映射到相應的類別空間中,完成粗粒度的語義聚類。
- 細粒度實體合并:在粗分類的每一個實體類別簇內,仍然可能存在語義一致但名稱不同的冗余實體。為此,我們進一步使用大模型對實體進行向量編碼,并在潛在語義空間中進行相似度比較。系統依據設定閾值(如 Sim > Thresh)自動判斷是否合并,從而完成同類實體的細粒度對齊與歸一化。
4.Long-Distance Relation Prediction
圖5展示了CTINEXUS框架中第三階段“長距離關系預測(Long-Distance Relation Prediction)”的完整流程設計,解決的是CTI文本中不同段落或句子中提及的實體之間缺乏顯式關聯的問題,確保最終構建的CSKG具有更好的連通性和完整性。
-
子圖遍歷與中心實體識別
在初步抽取的知識圖譜中,不同的三元組往往構成多個孤立的子圖。為此,我們首先采用 DFS 算法對每個子圖進行遍歷,并在每個子圖中尋找出度最高的實體,作為該子圖的中心實體(藍色節點)。 -
主題實體確定
在所有子圖的中心實體中,我們進一步比較其出度,選取出度最大的一個作為整篇報告的主題實體(黃色節點),以此作為長距離關系補全的語義核心。 -
隱含關系預測與補全
最后,系統基于構造好的提示詞模板,逐一推理主題實體與其他中心實體之間是否存在潛在的語義關系,從而補全原始圖譜中未被顯式提及的遠程三元組,提升整體圖譜的連通性與推理深度。
具體而言,其關鍵步驟包括:
-
Phase 1:中心實體識別(Central Entity Identification)
對CSKG執行深度優先遍歷,將其劃分為多個連通子圖。使用度中心性(Degree Centrality)指標,選出每個子圖中邊最多的實體作為“中心實體(Central Node)。在所有中心實體中,再選出度數最高者作為主題實體(Topic Node),即本報告最核心的威脅對象。 -
Phase 2:基于ICL的關系推理(ICL-Enhanced Relation Inference)
推斷中心節點與主題節點之間可能存在但在原文本中未明確指出的“隱式關系”。構建一個ICL提示模板(prompt template),包含上下文、問題和示例。由大語言模型(如GPT-4)根據上述提示,生成預測三元組(predicted_triplet),完成關系推理。
四、實驗評估
提問式實驗非常值得大家學習。
- 5.2. RQ1: How does CTINEXUS compare against existing CTI knowledge extraction methods?
- 5.3. RQ2: How do different settings affect the cybersecurity triplet extraction?
- 5.4. RQ3: How do different settings affect the entity alignment and relation prediction?
- 5.5. RQ4: How well does CTINEXUS perform in end-to-end CSKG construction?
- 5.6. RQ5: How well does CTINEXUS adapt to different CSKG ontologies?
- 5.7. RQ6: What is the efficiency of CTINEXUS?
1.與主流方法對比
- 三元組抽取性能:CTINEXUS F1-score為87.65%,遠超EXTRACTOR(62.29%);
- 實體識別性能:CTINEXUS F1-score為90.13%,領先LADDER(71.13%);
- 長距離關系推理:使用GPT-4模型下可達F1-score 90.99%,遠高于GPT-3.5的76.87%。
表1展示了CTINEXUS與EXTRACTOR在網絡安全三元組抽取任務中的性能對比。CTINEXUS在F1值(87.65)、精確率(93.69)和召回率(82.34)上均顯著優于EXTRACTOR,表明其在準確性與信息覆蓋方面具有更強的綜合抽取能力。
表2展示了CTINEXUS與LADDER在網絡安全實體抽取任務中的性能對比。CTINEXUS在F1值(90.13)、精確率(92.00)和召回率(88.35)上均大幅領先于LADDER,驗證了其在實體識別任務中的精度與全面性顯著提升
表3展示了CTINEXUS在不同示例數量下的抽取效果。結果顯示,使用2個示例時F1最高(87.65),Precision 和 Recall 也較為平衡,且輸入長度適中,體現出最優的性能與效率折中點。隨著示例數增加,性能略有波動,但輸入長度顯著增長。
2.各階段優化分析
- 示例數量從1增至2顯著提升準確性,進一步增加收益邊際遞減;
- kNN-ascend排序策略優于random與descending,驗證“示例靠近查詢越有效”;
- text-embedding-3-large在實體融合中F1達99.8%,優于SecureBERT等安全專用模型。
表4顯示了示例排列方式對CTINEXUS抽取性能的影響。結果表明,當示例按kNN相似度升序排列(kNN-ascend)時,模型表現最佳(F1為87.65),優于降序和隨機排列,說明示例排序對推理效果有顯著影響。
表5展示了不同基礎模型對CTINEXUS網絡安全三元組抽取性能的影響。結果表明,GPT-4在F1-Score、Precision和Recall三項指標上均表現最佳,顯著優于GPT-3.5、Qwen2.5-72B和Llama3-70B,驗證了其在復雜信息抽取任務中的強大推理能力。
表9展示了在長距離關系預測任務中,不同模型及其示例數量配置對性能的影響。隨著示例數量從0-shot增加至3-shot,GPT-3.5的F1-Score由65.95提升至最高76.87,再略微回落至74.83。相比之下,GPT-4在所有配置下均顯著優于GPT-3.5,其中2-shot配置達到最高F1-Score為90.99,說明GPT-4在結合少量示例后能顯著增強關系推理能力,具備更強的上下文學習與泛化能力。
五、結論與展望
CTINEXUS展示了LLM+ICL在CTI知識抽取與CSKG構建中的顯著優勢,具備高準確率、高適應性、低數據依賴;對本體切換(如MALOnt到STIX)的出色兼容性,支持實時威脅圖譜構建(如STIX格式輸出),賦能入侵檢測系統(如AlienVault OTX集成);高計算效率。
未來工作將探索:
- 降低LLM幻覺影響
- 圖譜增強生成(KG-augmented Generation)
- 安全可視化分析與問答系統集成
- 使CSKG成為安全LLM的動態記憶與防御基礎設施
2024年4月28日是Eastmount的安全星球——『網絡攻防和AI安全之家』正式創建和運營的日子,該星球目前主營業務為 安全零基礎答疑、安全技術分享、AI安全技術分享、AI安全論文交流、威脅情報每日推送、網絡攻防技術總結、系統安全技術實戰、面試求職、安全考研考博、簡歷修改及潤色、學術交流及答疑、人脈觸達、認知提升等。下面是星球的新人券,歡迎新老博友和朋友加入,一起分享更多安全知識,比較良心的星球,非常適合初學者和換安全專業的讀者學習。
目前收到了很多博友、朋友和老師的支持和點贊,尤其是一些看了我文章多年的老粉,購買來感謝,真的很感動,類目。未來,我將分享更多高質量文章,更多安全干貨,真心幫助到大家。雖然起步晚,但貴在堅持,像十多年如一日的博客分享那樣,腳踏實地,只爭朝夕。繼續加油,再次感謝!
(By:Eastmount 2025-06-16 周一夜于貴陽 http://blog.csdn.net/eastmount/ )
前文賞析:
- [論文閱讀] (01)拿什么來拯救我的拖延癥?初學者如何提升編程興趣及LATEX入門詳解
- [論文閱讀] (02)SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
- [論文閱讀] (03)清華張超老師 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
- [論文閱讀] (04)人工智能真的安全嗎?浙大團隊外灘大會分享AI對抗樣本技術
- [論文閱讀] (05)NLP知識總結及NLP論文撰寫之道——Pvop老師
- [論文閱讀] (06)萬字詳解什么是生成對抗網絡GAN?經典論文及案例普及
- [論文閱讀] (07)RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
- [論文閱讀] (08)NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
- [論文閱讀] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
- [論文閱讀] (10)基于溯源圖的APT攻擊檢測安全頂會總結
- [論文閱讀] (11)ACE算法和暗通道先驗圖像去霧算法(Rizzi | 何愷明老師)
- [論文閱讀] (12)英文論文引言introduction如何撰寫及精句摘抄——以入侵檢測系統(IDS)為例
- [論文閱讀] (13)英文論文模型設計(Model Design)如何撰寫及精句摘抄——以入侵檢測系統(IDS)為例
- [論文閱讀] (14)英文論文實驗評估(Evaluation)如何撰寫及精句摘抄(上)——以入侵檢測系統(IDS)為例
- [論文閱讀] (15)英文SCI論文審稿意見及應對策略學習筆記總結
- [論文閱讀] (16)Powershell惡意代碼檢測論文總結及抽象語法樹(AST)提取
- [論文閱讀] (17)CCS2019 針對PowerShell腳本的輕量級去混淆和語義感知攻擊檢測
- [論文閱讀] (18)英文論文Model Design和Overview如何撰寫及精句摘抄——以系統AI安全頂會為例
- [論文閱讀] (19)英文論文Evaluation(實驗數據集、指標和環境)如何描述及精句摘抄——以系統AI安全頂會為例
- [論文閱讀] (20)USENIXSec21 DeepReflect:通過二進制重構發現惡意功能(惡意代碼ROI分析經典)
- [論文閱讀] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (經典離地攻擊)
- [論文閱讀] (22)圖神經網絡及認知推理總結和普及-清華唐杰老師
- [論文閱讀] (23)惡意代碼作者溯源(去匿名化)經典論文閱讀:二進制和源代碼對比
- [論文閱讀] (24)向量表征:從Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)
- [論文閱讀] (25)向量表征經典之DeepWalk:從Word2vec到DeepWalk,再到Asm2vec和Log2vec(二)
- [論文閱讀] (26)基于Excel可視化分析的論文實驗圖表繪制總結——以電影市場為例
- [論文閱讀] (27)AAAI20 Order Matters: 二進制代碼相似性檢測(騰訊科恩實驗室)
- [論文閱讀] (28)李沐老師視頻學習——1.研究的藝術·跟讀者建立聯系
- [論文閱讀] (29)李沐老師視頻學習——2.研究的藝術·明白問題的重要性
- [論文閱讀] (30)李沐老師視頻學習——3.研究的藝術·講好故事和論點
- [論文閱讀] (31)李沐老師視頻學習——4.研究的藝術·理由、論據和擔保
- [論文閱讀] (32)南洋理工大學劉楊教授——網絡空間安全和AIGC整合之道學習筆記及強推(InForSec)
- [論文閱讀] (33)NDSS2024 Summer系統安全和惡意代碼分析方向相關論文匯總
- [論文閱讀] (34)EWAS2024 基于SGDC的輕量級入侵檢測系統
- [論文閱讀] (35)TIFS24 MEGR-APT:基于攻擊表示學習的高效內存APT獵殺系統
- [論文閱讀] (36)C&S22 MPSAutodetect:基于自編碼器的惡意Powershell腳本檢測模型
- [論文閱讀] (37)CCS21 DeepAID:基于深度學習的異常檢測(解釋)
- [論文閱讀] (38)基于大模型的威脅情報分析與知識圖譜構建論文總結(讀書筆記)