驗證泛化誤差
- 在一個數據集上估計誤差,數據集只能使用一次
- 驗證數據集:可以被使用多次
基本是訓練數據集中的一部分
當使用“test”時,大多數時候指的是驗證數據集
生成驗證數據集方法
1、數據隨機分入訓練集或驗證集
總是隨機選n%的數據作為驗證集
n=50,40,30,20,10
當分離非獨立同分布的數據時要額外注意
- 時序性數據:房價、股票價格等
驗證集應該在訓練集之后 - 屬于同一組的樣例:相同人的照片
在組之間分 - 不平衡的數據
對小的類采樣率要高
2、K折交叉驗證 - 適用于數據不充足的數據
- 算法:
將數據集分成K份
對i=1,2,…,K
使用第i份數據作為驗證集,其他作為訓練集 - 一般K=5或10
常見錯誤
- 90%以上極好的結果是由于bug存在
- 驗證集中有訓練集的樣本
原始數據中有重復的數據
在數據融合時常發生:將從搜索引擎中找到的圖片用于驗證模型 - 信息泄露
經常發生于非獨立同分布的數據:用未來預測過去