标签:com info img 最好 训练 分布 test nbsp 需要
1.数据集的划分:
训练集(train),
交叉验证集(dev):用来选取最好的模型,选择最好的算法(需要验证的可能是很多个算法)
测试集(test):用来评估
有时候不需要无偏估计的时候,就只需要训练集和验证集
确保dev ,train来自同一个分布
划分:70%train dev 30%test 百万数据;或者60%,20%,20%(小数据的划分)过百万数据
大数据时代:验证集和测试集占比要减小:98%,1%,1%;99.,5%,0.4%,0.1%;99.,5%,0.25%,0.25%
2.偏差方差的均衡
衡量指标:
标签:com info img 最好 训练 分布 test nbsp 需要
原文地址:https://www.cnblogs.com/yttas/p/10270933.html