一、數據集(Dataset)
定義: 用于訓練、驗證和測試模型的樣本集合,通常包含輸入特征(如圖像、文本)和對應標簽(如類別、回歸值)。
關鍵作用:
- 數據劃分:
- 訓練集:用于模型參數學習。
- 驗證集:調整超參數(如學習率、正則化強度),防止過擬合。
- 測試集:評估模型的泛化能力(需確保未參與訓練或調參)。
- 數據預處理:
- 歸一化 / 標準化(如圖像像素值歸一化到 [0,1])、分詞(文本任務)、數據增強(如圖像旋轉、翻轉)。
- 數據質量:
- 影響模型上限,需關注數據平衡(如類別不平衡問題)、噪聲、標注一致性。
示例:
- 圖像分類:MNIST(手寫數字)、CIFAR-10(物體分類)。
- 自然語言處理:IMDB(情感分析)、SQuAD(問答系統)。
二、模型(Model)
定義: 由神經網絡層(如卷積層、全連接層、Transformer 層)組成的架構,用于學習輸入到輸出的映射關系。
關鍵要素:
- 架構設計:
- 任務適配:
- 圖像:CNN(如 ResNet、YOLO);
- 序列:RNN/LSTM、Transformer(如 BERT、GPT);
- 圖數據:GNN(圖神經網絡)。
- 超參數:層數、神經元數量、激活函數(如 ReLU、Sigmoid)、Dropout 率。
- 任務適配:
- 參數學習:
- 通過反向傳播算法優化模型參數(權重和偏置),使損失函數最小化。
- 模型變種:
- 預訓練模型(如 CLIP、LLaMA):基于大規模數據預訓練,可微調至下游任務。
示例:
- 圖像分割:U-Net;
- 機器翻譯:Transformer encoder-decoder;
- 語音識別:CNN + LSTM + CTC 損失。
三、損失函數(Loss Function)
定義: 衡量模型預測值與真實值之間的差距,作為訓練過程中優化的目標函數。
分類:
- 分類任務:
- 交叉熵損失(Cross-Entropy Loss):適用于多分類,如 Softmax 輸出層,公式:
其中?
?為真實標簽(one-hot 編碼),
為預測概率。
- 二元交叉熵損失(Binary Cross-Entropy Loss):適用于二分類(如 Sigmoid 輸出)。
- 焦點損失(Focal Loss):緩解類別不平衡問題,通過權重抑制易分類樣本的影響。
- 交叉熵損失(Cross-Entropy Loss):適用于多分類,如 Softmax 輸出層,公式:
- 回歸任務:
- 均方誤差(MSE):預測值與真實值差的平方均值,公式:
- 平均絕對誤差(MAE):差值絕對值的均值,對異常值更魯棒。
- 均方誤差(MSE):預測值與真實值差的平方均值,公式:
- 其他任務:
- 排序任務:鉸鏈損失(Hinge Loss);
- 生成任務:對抗損失(GANs 中的判別器與生成器損失)。
選擇原則:
- 與任務匹配(分類 / 回歸 / 生成);
- 可微分(支持反向傳播);
- 計算效率(如大規模數據下避免復雜運算)。
四、度量(Metrics)
定義: 用于評估模型性能的量化指標,反映模型在特定任務上的效果(不同于損失函數,不一定可微)。
常見度量:
- 分類任務:
- 準確率(Accuracy):正確預測樣本占比,但對不平衡數據不敏感。
- 精確率(Precision)、召回率(Recall)、F1 分數:適用于二分類,平衡查準率與查全率。
- 混淆矩陣(Confusion Matrix):可視化各類別預測對錯情況。
- AUC-ROC:衡量分類器在不同閾值下的泛化能力。
- 回歸任務:
- MSE、MAE、RMSE(均方根誤差):誤差的不同統計量,RMSE 與預測值量綱一致。
- R2 分數:預測值與真實值的擬合優度。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
- 生成任務:
- 圖像生成:FID(Frechet Inception Distance)、IS(Inception Score);
- 文本生成:BLEU(機器翻譯)、PPL(困惑度,語言模型)。
- 其他:
- 目標檢測:mAP(平均精度均值);
- 語義分割:IoU(交并比)。
注意事項:
- 度量需與業務目標一致(如醫療診斷中更關注召回率,避免漏診);
- 訓練時優化損失函數,但最終評估以度量為準(如損失降低但準確率未提升可能存在數據泄漏)。
五、基準(Benchmark)
定義: 在特定數據集上的公認性能標準,用于比較不同模型的優劣,通常包括:
- 經典模型的結果(如 ResNet 在 ImageNet 上的準確率);
- 最新技術(SOTA,State-of-the-Art)結果。
作用:
- 模型性能參考:
- 驗證自研模型是否達到領域基本水平(如 ImageNet 分類需達到 80%+ 準確率才具競爭力)。
- 技術迭代標桿:
- 推動領域發展(如 BERT 刷新多項 NLP 任務基準后,后續模型需超越其性能)。
- 公平比較基礎:
- 確保不同方法在相同數據集、相同評估協議下對比(如相同的測試集劃分、度量標準)。
示例基準數據集:
- 圖像:ImageNet(分類)、MSCOCO(檢測 / 分割);
- 自然語言處理:GLUE(通用 NLP 任務)、SuperGLUE;
- 強化學習:Atari 游戲、MuJoCo 物理仿真環境。
六、核心流程與關聯
- 數據驅動模型:數據集質量決定模型上限,預處理影響訓練效率(如圖像增強減少過擬合)。
- 損失函數引導優化:模型通過最小化損失函數學習參數,度量用于判斷優化方向是否符合實際需求(如損失降低但 F1 分數下降可能因類別不平衡)。
- 基準定義競爭門檻:在公開基準上超越 SOTA 是模型落地或論文發表的重要依據(如 LLaMA 在 Hugging Face 基準中的表現)。
七、實踐建議
- 數據優先:
- 花 80% 時間處理數據(清洗、增強、平衡),而非調參。
- 損失與度量解耦:
- 訓練時用易優化的損失函數(如交叉熵),評估時用業務相關度量(如點擊率預測中的 AUC)。
- 基準選擇策略:
- 優先選擇領域內權威基準(如計算機視覺選 ImageNet,NLP 選 GLUE);
- 若數據私有,需建立內部基準(如歷史模型性能作為基線)。
- 模型輕量化與泛化:
- 在基準上追求高性能的同時,需考慮模型推理速度(如邊緣設備的延遲限制)。