目錄
- 前言
- 一、智能技術層面
- 1、機器學習和 AI 模型訓練
- 2、攻擊成功判定
- 二、多源關聯分析
- 1、多源設備關聯(跨設備日志整合)
- 2、上下文信息增強
- 三、業務白名單和策略優化
- 1、動態白名單機制
- 2、閾值和規則調整
- 四、自動化和流程化
- 1、告警歸并與去重
- 2、同類型事件自學習
- 3、自動化響應與 SOAR(安全編排自動化響應)集成
- 4、借助UEBA(用戶與實體行為分析)
- 5、借助 AI flow 工作流
- 五、數據標準化與工程化
- 1、日志格式統一
- 2、特征提取與標簽化
- 六、人員協同
- 1、業務側措施
- 2、安全團隊
前言
日常安全運營會面對海量的告警,怎么對告警進行過濾和降噪是一個必然的問題,也是一個被問最多的問題,今天我就做個統一梳理。
說起方式方法其實很多,例如智能降噪,關聯分析,業務白名單,自動化歸并,數據標準化,攻擊成功判定,自動化等等,但是實際上現在用的比較多的還是加白,各種各樣的加白(比較傳統但有效),業務相關加白,IP 加白,文件加白,md5 加白,標簽加白,進程加白,域名加白等等
一、智能技術層面
1、機器學習和 AI 模型訓練
- 誤報過濾:利用機器學習算法對歷史告警信息進行訓練,提高識別并過濾誤報的能力。例如,通過流量模式分析、用戶行為分析等方法。這方面的代表如 AISOC。
- 動態調整:根據新型攻擊方式,動態優化模型并調整規則。
2、攻擊成功判定
- 驗證攻擊的有效性:通過分析攻擊請求與服務器響應的關聯(如HTTP狀態碼、回顯內容),判斷攻擊是否成功。例如,SQL注入攻擊若返回“數據庫錯誤”則可能是真實攻擊,而狀態碼200可能是誤報。
- BAS驗證:安全防護能力驗證,了解自身的防護能力水平。
- 威脅情報關聯:關聯威脅情報對攻擊的有效性進行輔助判定。
二、多源關聯分析
1、多源設備關聯(跨設備日志整合)
- 將防火墻、IDS、終端日志等多源數據關聯分析,構建攻擊全景圖。例如,通過MITRE ATT&CK框架識別攻擊鏈中的TTP(戰術、技術、過程)。案例:發現內網IP同時爆破多個主機或使用多個用戶名,可能表明橫向移動,需觸發應急響應。
2、上下文信息增強
- 業務場景結合:結合業務流量特征(如特定時間段的合法登錄行為)過濾誤報。例如,排除業務腳本的密碼錯誤或周期性測試行為。
- 時間戳與時區統一:確保日志時間戳格式一致,避免因時間錯位導致誤判(如知乎討論中提到的微軟SOC實踐)。
三、業務白名單和策略優化
1、動態白名單機制
- 合法 IP/行為加白:深入了解業務,將業務所需的IP、行為和操作加入白名單以減少誤報。
- 限時降噪:對業務的測試行為或者腳本設置臨時加白和報備。例如,產線需要進行漏掃時進行掃描報備。
- 各種加白方式:文件加白、MD5加白、域名加白、進程加白、標簽加白(標簽資產體系)。
2、閾值和規則調整
- 智能閾值設定:根據業務流量基線動態調整告警閾值。例如,對SSH登錄失敗次數的閾值區分內外網(內網閾值可更低)。
- 告警規則過濾:對業務一些已知正常行為進行過濾(包括紅隊行為等已知行為)。
四、自動化和流程化
1、告警歸并與去重
- 同類告警合并:將同一攻擊源、目標或模式的告警合并為一條,減少重復處理(如微步TDP的同類告警歸并策略)。
- 優先級排序:根據攻擊嚴重性(如CVSS評分)或來源(內網/外網)對告警分級,優先處理高風險事件。
- 頻率抑制:同類的告警抑制告警的頻率,例如根據攻擊IP或者模式限制告警為每4小時產生一次。
2、同類型事件自學習
- 機器學習:借助機器學習中的監督學習范式,將運營人員日常運營的告警事件當作訓練資料喂給模型,讓模型學習和進化。建議用作輔助判斷,例如告訴運營人員歷史上同類型的事件是怎么處理的,并給出處理建議,不建議放開讓機器自己操作。
3、自動化響應與 SOAR(安全編排自動化響應)集成
- 自動化處置:對低風險告警(如已知誤報)自動標記或關閉,釋放分析師資源。
- SOAR(安全編排自動化響應):通過預設劇本(Playbook)自動執行部分響應動作(如阻斷IP、收集日志)。
4、借助UEBA(用戶與實體行為分析)
- 告警降噪:面對海量的日志和告警信息,UEBA層層抽取實體和行為的理念本身也具備很好的降噪效果。例如從告警中抽象出實體,定義規則抽取實體的行為,定義規則對實體的異常行為生成告警,還可以方便地定義告警生成后的處置動作和是否需要關聯人工分析等。
- 時序檢測:利用UEBA理念做到時序檢測(或者叫行為序列),在一段時間內,多個行為有序或無序被觸發生成的告警。例如攻擊IP批量SSH爆破后,觸發對受害IP的SSH登錄成功行為,這種判斷就很精確了。
- 關于 UEBA:【安全運營】用戶與實體行為分析(UEBA)淺析
5、借助 AI flow 工作流
- AI工作流:現在比較先進的告警處理手段,依賴前期的基礎建設。通過定義智能體、工作流和插件的方式處理告警事件。理論上AI工作流可以處理任何工作。
- 概念關系:
- 智能體:可以包含多個工作流,智能體的上限是應用。
- 工作流:可以包含多個單位工具插件(或功能節點),和多個AI能力調用。
- 插件(功能節點):原子功能單位,代碼或者服務的形式出現。
- 設計思路:
- 創建處理不同來源的告警事件的智能體,例如專門處理天眼告警的智能體,專門處理NGSOC告警的智能體,或者直接處理告警的智能體(類型在工作流中區分)等。
- 工作流的設計發揮的空間更大,先將處理事務的步驟劃分出來(變成節點),有幾個步驟,每個步驟完成什么樣的輸入和輸出,哪個步驟需要AI能力的加持,需要給這個AI能力預設的提示詞是什么,溫度值是多少,輸出統一什么結構等等。
- 插件(功能節點):插件可以是一個AI模型的調用,可以是一個公共的服務接口調用,可以是一段Python代碼實現了某種功能等等,插件的串聯形成了工作流,多個工作流匯聚成了智能體的能力。
- 如何告警降噪:
- 將更定制化的事件交由智能體自動處理,人工只負責審核智能體處理的結果。
- 智能體不能自動判斷或處理的事件將轉交人工分析,大大減少了分析師成本。
- 概念關系:
五、數據標準化與工程化
1、日志格式統一
- 標準化數據輸入:確保所有安全設備的日志格式、時間戳、字段一致,便于關聯分析。
- 字段拓展:添加上下文字段(如用戶身份、資產歸屬),輔助判斷告警合法性。
- 字段映射:將多種安全設備的日志字段映射成通用的“元字段”,這些元字段多為一些基礎字段,例如attack_ip、device_ip、source_ip、destination_ip等,其他個性化的字段則作為擴展字段補充。
2、特征提取與標簽化
- 攻擊特征庫構建:通過時序挖掘技術提取攻擊模式(如暴力破解的頻率、IP分布),并標注為已知威脅。
- 異常檢測:利用統計模型(如孤立森林)識別偏離正常模式的流量,減少誤報。
六、人員協同
1、業務側措施
- 業務側協作:加深安全運營人員對業務的了解深度,減少業務操作引發的事件告警處理。
- 敏感操作報備:業務在特定時間內進行一些敏感操作或可能觸發安全事件的提前進行告知,避免和安全人員之間的烏龍。
- 業務安全接口人機制:接口人在安全部門培訓學習,了解哪些操作違規違法或者數據敏感操作,及時反饋到業務并起到監督和協調安全部作用。
2、安全團隊
- 事件分級處理:將告警事件分類分級,對應不同的處理方式,如自動化處理告警,人工介入簡單分析告警,人工介入復雜分析告警,應急響應告警等(對應微軟的一級響應、二級響應、三級響應等)。
- 知識庫構建:建立常見的安全場景、業務場景案例及處理方案,減少重復分析。
by 久違