码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习(3)

时间:2020-08-28 11:48:55      阅读:52      评论:0      收藏:0      [点我收藏+]

标签:基础   偏差   取值   平均值   结果   一个   机器学习   执行   不同的   

一、模型评估与选择

2.2.1留出法

1、直接将数据集划分为两个互斥的集合,即D=sUt,s∩t=空集

2、在s上训练出模型,用t来评估其测试误差

3、s/t的划分尽可能保持数据分布的一致性,至少要保持样本的类别比例相似

4、若s,t中的样本比例差别很大,则误差估计将由训练/测试数据分布的差异而产生偏差

5、在给定训练/测试集的样本比例之后,仍存在多种划分方式对初始数据集D进行分割。这些不同的划分将导致不同的训练/测试集

6、在使用留出法时,一般要采用若干次随机划分,重复进行试验后取平均值作为留出法的评估结果

2.2.2交叉验证法

1、先将数据集D划分为k个大小相似的互斥子集

即每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k-1个子集的并集作为训练集,

余下的自己作为测试集(总过划分为k个子集)这样便可获得k组训练/测试集,从而进行k次训练和测试,最终返回k个测试结果的均值

2、k最常使用的取值为10

3、将数据集D划分为k个子集存在多种划分方式。k折交叉验证通常要随机使用不同的划分重复p次,最终取这p次k折交叉验证的均值作为结果

2.2.3自助法

1、在前两者中,由于保留了一部分样本用于测试,因此是实际评估的模型所使用的训练集比D小。这会导致些许误差

2、“自助法”直接以自助采样法为基础,给定包含m个样本的数据集D,我们对它进行采样产生数据集d,每次随机从D中挑选一个样本,将其拷贝放入d,

使得该样本在下次采样时仍可能被采到,将这个过程重复执行n次,就得到了包含n个样本的数据集d,这就是自助采样的结果

机器学习(3)

标签:基础   偏差   取值   平均值   结果   一个   机器学习   执行   不同的   

原文地址:https://www.cnblogs.com/funny-and-point/p/13547004.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!