目錄
1、為什么要做數據增強?
2、圖像數據增強?
3、文本與音頻數據增強?
4、高級數據增強?
數據增強技術就像是一種“造數據”的魔法,通過對原始數據進行各種變換,生成新的樣本,從而提高模型的泛化能力。
1、為什么要做數據增強?
- 提升模型泛化能力(lmprove Generalization):減少模型對訓練數據中無關特征的依賴,使其在未見過的新數據上表現更好。
- 防止過擬合(Prevent Overfitting):當訓練數據量有限時,模型很容易“記住”訓練數據的所有細節,而不是學習到底層的規律。增加數據量是解決過擬合最有效的方法之一。
- 降低數據采集成本 (Reduce Data Collection Costs):收集和標注大量高質量的數據是非常昂貴且耗時的。數據增強可以用較低的成本擴充數據集
- 處理類別不平衡問題 (Handle Class lmbalance):在分類任務中,如果某些類別樣本很少,可以針對性地對這些少數類進行數據增強,以平衡數據分布。