标签:机器学习
当我们使用正则化的线性回归方法预测房价时,发现得到的模型应用于新的数据上时有很大误差,这时,我们可以选择一些解决方案,例如:
上图中的这六种解决方案都有相应的条件,如图中蓝色字体所示。
我们引入一类数据集,叫做cross validation set,即交叉验证数据集。将所有数据按6:2:2
分为training set , cross validation set , testing set三类,如下图所示:
【模型选择的步骤】
对于不同的模型,有不同的拟合情况,如下图所示:
由上图可定义:
为了解决过拟合的问题,使用正则化,但是正则化参数λ的正确选择是一个难题。
λ太大导致underfit,产生bias,J(train) ≈ J(cv)
如下图所示:
关于λ的曲线如下:
【参数λ的选择】
从上图可知:训练数据越少,J(train)越小,J(cv)越大;m越大,J(train)越大(因为越难完全拟合),J(cv)越小(因为越精确)。
那么怎么判断增加训练数据training set的数目m能够对算法有较大改进呢??
【总结】
版权声明:本文为博主原创文章,未经博主允许不得转载。
标签:机器学习
原文地址:http://blog.csdn.net/adminabcd/article/details/47091531