机器学习：验证数据集与交叉验证

时间：2018-07-10 23:40:01 阅读：179 评论：0 收藏：0 [点我收藏+]

# 问题：如果将所有的数据集都作为训练数据集，则对于训练出的模型是否发生了过拟合会不自知，因为过拟合情况下，模型在训练数据集上的误差非常的小，使人觉得模型效果很好，但实际上可能泛化能力不足；

# 方案：将数据集分割为训练数据集和测试数据集，通过测试数据集判断模型的好坏——如果通过学习曲线发现，模型在训练数据集上效果较好，在测试数据集上效果不好，模型出现过拟合，需要调整参数来重新得到模型，然后再次进行测试；以此类推循环此过程，最终得到最佳模型。

技术分享图片

　　# 最佳模型：也就是在测试数据集上表现的比较好的模型，因为这种模型的泛化能力强，放在生成环境中面对未知的环境时有更好的表现。

　　# 调整的参数通常就是超参数：kNN 中的 k 和 P 、多项式回归中的 degree 等；

# 方案缺陷：此方案得到的最佳模型，有可能会过拟合了测试数据集；

　　# 解释：虽然使用训练数据获得模型，但每次通过测试数据集验证模型的好坏，一旦发现模型不好就重新调整参数再次训练新的模型，这个过程一定程度上是模型在围绕着测试数据集进行刷选，也就是说，我们在想办法找到一组参数，这组参数使得我们在训练数据集上获得的模型在测试数据集上效果最好，但是由于测试数据集是已知的，我们相当于在针对这组测试数据集进行调参，那么也有可能出现过拟合的现象，也就是说我们得到的模型针对这组测试数据集过拟合了；

# 解决方案的缺陷：将数据集分割为 3 部分——训练数据集、验证数据集、测试数据集；

技术分享图片