scikit-learn 包

文章目錄

scikit-learn 包
- 核心功能模塊
- 案例
- 其他用法
- - **常用功能詳解**
  - - **(1) 分類任務示例（SVM）**
    - **(2) 回歸任務示例（線性回歸）**
    - **(3) 聚類任務示例（K-Means）**
    - **(4) 特征工程（PCA降維）**
  - **高級技巧**
  - - **(1) 交叉驗證與超參數調優**
    - **(2) 流水線（Pipeline）**
    - **(3) 自定義評估指標**
- 方法介紹

scikit-learn 包

scikit-learn (sklearn) 是 Python 中最流行的機器學習庫之一，提供了簡單高效的工具集用于數據挖掘和數據分析。在反洗錢項目中，它主要用于構建風險識別模型和可疑交易檢測系統。以下是其核心特點和應用：

核心功能模塊

數據預處理(reprocessing)
- 特征縮放（ StandardScaler 、 MinMaxScaler ）
- 缺失值處理（ SimpleImputer ）
- 類別變量編碼（ OneHotEncoder 、 LabelEncoder ）
- 在反洗錢場景中用于標準化交易金額、客戶特征等數據
監督學習算法
- 分類算法：邏輯回歸、隨機森林、SVM等，用于識別可疑交易
- 回歸算法：預測交易風險評分
- 聚類算法：發現異常交易模式
模型評估與優化
- 交叉驗證（ cross_val_score ）
- 網格搜索（ GridSearchCV ）調參
- 混淆矩陣、ROC曲線等評估指標

優勢
- 易于使用：統一的API接口，適合快速開發
- 高效集成：可與NumPy、Pandas數據處理無縫銜接
- 豐富文檔：完善的教程和案例，降低反洗錢模型開發門檻
- 社區活躍：持續更新維護，支持最新算法
注意事項
- 需配合 pandas 進行數據清洗
- 大規模交易數據可能需要結合 scipy 優化
- 模型解釋性需額外使用 SHAP 或 LIME 工具增強，滿足監管要求

案例

以反洗錢業務為背景，使用 scikit-learn 開發風險識別模型。

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report# 加載數據
iris = load_iris()
X, y = iris.data, iris.target  # 特征矩陣 (n_samples, n_features) 和標簽# 數據預處理
# 標準化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # 將輸入特征矩陣 X 轉換為均值為0、標準差為1的標準化數據
'''標準化特征：標準化特征是指將特征矩陣中的每個特征進行標準化處理，使它們的均值為0、標準差為1。標準化特征的目的是消除特征之間的量綱差異，使不同特征對模型的影響相同。標準化特征的計算方法是：將特征值減去均值，再除以標準差。標準化特征的計算過程如下：1. 計算特征的均值：mean = sum(x) / n2. 計算特征的標準差：std = sqrt(sum((x - mean)^2) / n)3. 標準化特征：x_scaled = (x - mean) / std兩步操作合一 ： fit_transform 等價于先調用 scaler.fit(X) 再調用 scaler.transform(X)- fit(X) ：計算訓練數據的均值和標準差等統計參數- transform(X) ：使用這些參數將數據進行標準化轉換
'''# 劃分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X_scaled,y,test_size=0.2,random_state=42)
# test_size=0.2  20% 為測試數據 80% 為訓練數據
# random_state=42 隨機種子# 訓練隨機森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)  # 訓練y_pred = model.predict(X_test)
print("準確率:", accuracy_score(y_test, y_pred))
print("詳細報告:\n", classification_report(y_test, y_pred))

Demo 進階

# -*- coding: utf-8 -*-
"""
反洗錢交易檢測Demo
功能：使用隨機森林模型識別可疑交易
數據特征：交易金額、頻率、地區風險等級等
"""
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report# 1. 準備反洗錢樣本數據（實際項目中從數據庫讀取）
def prepare_aml_data():"""生成模擬反洗錢交易數據"""# 正常交易（90%）和可疑交易（10%）np.random.seed(42)n_samples = 10000# 特征：交易金額、頻率、地區風險等級、賬戶年齡（天）X = pd.DataFrame({'amount': np.random.normal(5000, 3000, n_samples),'transaction_count': np.random.randint(1, 20, n_samples),'region_risk': np.random.randint(1, 5, n_samples),'account_age': np.random.randint(30, 365, n_samples)})# 標簽：1=可疑交易，0=正常交易y = np.where((X['amount'] > 10000) & (X['region_risk'] > 3) |(X['transaction_count'] > 15) & (X['account_age'] < 90),1, 0)return X, y# 2. 數據預處理與模型訓練
def train_aml_model():"""訓練反洗錢交易檢測模型"""# 獲取數據X, y = prepare_aml_data()# 拆分訓練集和測試集X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=42,stratify=y)# 使用 stratify（保持類別分布一致）'''當設置 stratify=y 時，函數會：1. 分析 y 中各類別的比例2. 在拆分過程中，按照相同比例從每個類別中抽取樣本到訓練集和測試集3. 最終確保訓練集和測試集的類別分布與原始數據集高度一致反洗錢項目中的重要性1. 解決數據不平衡問題 ：反洗錢數據通常存在嚴重的類別不平衡（正常交易占99%以上，可疑交易不足1%）2. 確保模型泛化能力 ：如果不使用 stratify ，隨機拆分可能導致測試集中幾乎沒有可疑交易樣本，無法準確評估模型性能3. 符合監管要求 ：保證模型在稀有但關鍵的可疑交易類別上有足夠的學習樣本，避免模型對這類交易的漏檢'''# 特征標準化（修復原代碼中的拼寫錯誤和語法問題）scaler = StandardScaler()  # 修正：scalar -> scaler# 對訓練集進行擬合和轉換X_train_scaled = scaler.fit_transform(X_train)  # 修正：添加括號和參數# 對測試集進行轉換X_test_scaled = scaler.transform(X_test)'''兩者區別1. fit_transform ：用于訓練數據，計算并應用標準化參數（均值和標準差），并返回標準化后的訓練數據2. transform ：用于測試數據，使用之前計算的標準化參數（均值和標準差），并返回標準化后的測試數據作用：1.避免數據泄露： 確保測試集的數據不會影響模型訓練過程中的參數估計2.保持一致性 ：訓練集和測試集使用相同的轉換標準，確保模型評估的公平性3.模擬真實場景 ：在實際反洗錢應用中，模型部署后只能使用訓練時確定的參數來處理新交易數據這種處理方式確保了模型評估的客觀性，也是機器學習流程中的最佳實踐。'''# 訓練隨機森林模型（反洗錢項目常用算法）model = RandomForestClassifier(n_estimators=100,  # 樹的數量max_depth=8,  # 樹深度，防止過擬合class_weight='balanced',  # 處理不平衡數據random_state=42)model.fit(X_train_scaled, y_train)# 模型評估y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]y_pred = model.predict(X_test_scaled)print(f"模型AUC值: {roc_auc_score(y_test, y_pred_proba):.4f}")print("分類報告:\n", classification_report(y_test, y_pred))return model, scaler# 3. 預測新交易風險
def predict_risk(model, scaler, new_transaction):"""預測新交易的風險等級:param model: 訓練好的模型:param scaler: 特征縮放器:param new_transaction: 新交易數據（DataFrame）:return: 風險概率和預測標簽"""transaction_scaled = scaler.transform(new_transaction)risk_prob = model.predict_proba(transaction_scaled)[0, 1]risk_label = 1 if risk_prob > 0.7 else 0  # 風險閾值設為0.7return risk_prob, risk_label# 執行Demo
if __name__ == "__main__":# 訓練模型aml_model, aml_scaler = train_aml_model()# 模擬新交易檢測new_trans = pd.DataFrame({'amount': [15000, 3000],'transaction_count': [18, 5],'region_risk': [4, 2],'account_age': [60, 200]})for i, trans in new_trans.iterrows():prob, label = predict_risk(aml_model, aml_scaler, trans.to_frame().T)print(f"交易{i+1}: 風險概率={prob:.4f}, 風險標簽={label} (1=可疑, 0=正常)")

模型保存

import joblib# 保存模型
joblib.dump(aml_model, 'aml_model.pkl')# 保存特征縮放器
joblib.dump(aml_scaler, 'aml_scaler.pkl')
# 加載模型
aml_model = joblib.load('aml_model.pkl')

其他用法

常用功能詳解

(1) 分類任務示例（SVM）

from sklearn.svm import SVC
from sklearn.metrics import confusion_matrixsvm = SVC(kernel='rbf', C=1.0)
svm.fit(X_train, y_train)
print("SVM 準確率:", svm.score(X_test, y_test))
print("混淆矩陣:\n", confusion_matrix(y_test, svm.predict(X_test)))

(2) 回歸任務示例（線性回歸）

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_errorX, y = [[1], [2], [3]], [1, 2, 3]  # 簡單數據
model = LinearRegression()
model.fit(X, y)
print("斜率:", model.coef_, "截距:", model.intercept_)
print("MSE:", mean_squared_error(y, model.predict(X)))

(3) 聚類任務示例（K-Means）

from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_scaled)
print("聚類標簽:", kmeans.labels_)

(4) 特征工程（PCA降維）

from sklearn.decomposition import PCApca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
print("降維后方差比例:", pca.explained_variance_ratio_)

高級技巧

(1) 交叉驗證與超參數調優

from sklearn.model_selection import GridSearchCVparams = {'n_estimators': [50, 100, 200], 'max_depth': [None, 5, 10]}
grid = GridSearchCV(RandomForestClassifier(), params, cv=5)
grid.fit(X_train, y_train)
print("最佳參數:", grid.best_params_)

(2) 流水線（Pipeline）

from sklearn.pipeline import Pipelinepipe = Pipeline([('scaler', StandardScaler()),('classifier', RandomForestClassifier())
])
pipe.fit(X_train, y_train)

(3) 自定義評估指標

from sklearn.metrics import make_scorerdef custom_metric(y_true, y_pred):return sum(y_true == y_pred) / len(y_true)scorer = make_scorer(custom_metric)
print("自定義得分:", scorer(model, X_test, y_test))

方法介紹

from sklearn.metrics import classification_report, roc_auc_score, precision_recall_curve, roc_curve, auc, recall_score, f1_score, log_loss, accuracy_score,precision_score'''
1. classification_report
生成詳細的分類評估報告，包含每個類別的精確率、召回率、F1分數和支持度。在反洗錢項目中，用于全面展示模型對正常交易（類別0）和可疑交易（類別1）的識別效果。2. roc_auc_score
計算ROC曲線下的面積（AUC值），范圍在0-1之間。值越接近1，模型區分正常交易和可疑交易的能力越強。反洗錢場景中，AUC是評估模型整體性能的關鍵指標。3. precision_recall_curve
繪制精確率-召回率曲線，展示不同閾值下模型的精確率和召回率之間的權衡關系。在反洗錢項目中，幫助確定最優閾值，平衡漏報（低召回）和誤報（低精確）風險。4. roc_curve
繪制受試者工作特征曲線（ROC曲線），展示不同閾值下模型的真陽性率（召回率）和假陽性率之間的關系。用于評估模型在不同閾值下的表現。5. auc
計算任意曲線下的面積，常與 roc_curve 或 precision_recall_curve 結合使用，量化曲線所代表的模型性能。6. recall_score
計算召回率（真陽性率）：實際可疑交易中被正確識別的比例。反洗錢項目中，高召回率至關重要，可減少漏報風險，符合監管要求。7. f1_score
計算F1分數：精確率和召回率的調和平均數。綜合評估模型性能，尤其適用于類別不平衡的反洗錢數據（正常交易遠多于可疑交易）。8. log_loss
計算對數損失（交叉熵損失）：衡量模型概率預測與實際標簽的差異。值越小，模型預測越準確，適用于評估反洗錢模型的概率輸出質量。9. accuracy_score
計算準確率：正確預測的樣本數占總樣本數的比例。但在反洗錢等類別不平衡場景中，準確率可能會誤導（如99%正常交易的數據集，即使全部預測為正常也能達到99%準確率）。10. precision_score
計算精確率（陽性預測值）：預測為可疑的交易中實際為可疑的比例。反洗錢項目中，高精確率可減少誤報，降低人工審核成本。
'''

from sklearn.linear_model import LogisticRegression
'''
LogisticRegression
1. 邏輯回歸模型，用于二分類問題（正常交易與可疑交易）。與隨機森林等模型不同，邏輯回歸模型的解釋性更強，可用于特征工程和模型解釋。
2. 概率預測 ：通過 predict_proba 方法輸出交易為可疑的概率值
3. 特征重要性分析 ：通過 coef_ 屬性查看各特征對模型決策的影響程度
'''