目錄
- 4.9. 環境和分布偏移
- 1)分布偏移的類型
4.9. 環境和分布偏移
機器學習應用常被忽視數據來源和模型輸出處理。許多模型在測試集上表現好,但數據分布改變時會部署失敗,甚至模型決策本身可能破壞數據分布(如貸款模型基于“穿牛津鞋就會還款”決策,導致所有人都穿牛津鞋但信用未提升)。解決這些問題需多方面的思考和方法,如優化數據、強化學習、考慮算法倫理等,以提升機器學習系統的可靠性和適應性。
1)分布偏移的類型
分布偏移指訓練與測試數據分布不同,如訓練數據來自分布 p S ( x , y ) p_S(\mathbf{x}, y) pS?(x,y),測試數據來自 p T ( x , y ) p_T(\mathbf{x}, y) pT?(x,y)。**若無假設兩者關系,學習到一個分類器是不可能的。**如狗貓分類問題,若輸入分布不變但標簽全翻轉,無法區分情況。需在合理假設下用算法檢測調整分布偏移,提升分類器精度。
分布偏移的類型:
-
協變量偏移:指特征的分布發生了變化,但標簽函數保持不變。例如,訓練集包含真實照片,測試集包含卡通圖片時,模型可能難以適應新的特征分布。
-
標簽偏移:指標簽的邊緣概率分布發生了變化,但類別條件分布保持不變。例如,預測疾病時,疾病的發病率(標簽的邊緣概率)可能隨時間變化,但癥狀與疾病的關聯關系保持不變。
-
概念偏移:指標簽的定義發生變化。例如,不同地區對“軟飲”的名稱存在差異,這可能導致機器翻譯系統在不同地區產生不同的翻譯結果。
聲明:資源可能存在第三方來源,若有侵權請聯系刪除!