一、可解釋性的核心作用
1. 錯誤檢測與模型改進
- 發現模型的異常行為(如過擬合、偏見),優化性能。
- 例:醫療模型中,可解釋性幫助識別誤診原因。
2. 安全與可信性
- 關鍵領域(醫療、軍事)需透明決策,確保模型可靠。
3. 數據偏見修正
數據驅動的模型易學習虛假關聯(如性別/種族偏見),可解釋性揭示這些偏見。
二、可解釋性方法分類
1. 局部解釋(針對單個樣本)
LIME(Local Interpretable Model-agnostic Explanations)
步驟:
對輸入樣本生成擾動數據(如修改圖像像素或文本單詞)。
用原模型預測擾動數據,記錄結果。
訓練一個簡單模型(如線性回歸)擬合擾動數據的預測結果,權重即特征重要性。
優點:模型無關、易于理解。
缺點:
鄰域范圍難確定,解釋可能不穩定。
忽略特征相關性(如“年齡”和“工作經驗”可能被獨立擾動)。
顯著圖(Saliency Maps)
計算模型輸出對輸入像素/單詞的梯度,高梯度區域即重要特征。
適用場景:圖像分類(突出關鍵像素)、文本分類(重要單詞)。
沙普利值(Shapley Value)
基于博弈論,計算每個特征對預測的邊際貢獻。
缺點:計算量大(需遍歷所有特征子組合),僅適用于小模型。
2. 全局解釋(整體模型行為)
探針(Probing)
在模型中間層插入簡單分類器(如線性層),探查該層是否編碼特定信息(如詞性、句法)。
任務示例:
詞級別:詞性標注、語義相似度。
句子級別:句子長度、語序、時態。
注意力機制(Attention)
通過權重顯示模型關注的部分(如Transformer中的單詞重要性)。
公式:
Attention(Q,K,V)=softmax(QKTdk)VAttention(Q,K,V)=softmax(dk??QKT?)V局限:注意力權重≠重要性,可能被模型誤導。
3. 業務場景應用(如風控)
圖算法解釋
解釋點(用戶)、邊(交易關系)、子圖(黑產團伙)的重要性。
序列行為解釋
方法1:為每個行為分配重要性分數(如LIME用于用戶行為序列)。
方法2:直接預測關鍵子序列(如“連續深夜轉賬”解釋欺詐風險)。
4. 文本/圖像高級解釋
Extractive Rationale:抽取關鍵片段(如從評論中提取“服務差”作為負面原因)。
Concept-based:關聯抽象概念(如“口味”“環境”對餐廳評分的影響)。
Hierarchical:分層打分(如句子中的正向/負向短語)。
三、關鍵對比與易錯點
方法 | 適用場景 | 優點 | 缺點 |
---|---|---|---|
LIME | 局部解釋、任意模型 | 簡單直觀 | 鄰域敏感、忽略特征相關性 |
沙普利值 | 小模型、精確貢獻 | 理論嚴謹 | 計算復雜度高 |
顯著圖 | 圖像/文本 | 快速可視化 | 梯度可能不反映真實重要性 |
探針 | 模型內部表示分析 | 揭示隱藏信息 | 需設計輔助任務 |