机器学习（3）

时间：2020-08-28 11:48:55 阅读：52 评论：0 收藏：0 [点我收藏+]

一、模型评估与选择

2.2.1留出法

1、直接将数据集划分为两个互斥的集合，即D=sUt,s∩t=空集

2、在s上训练出模型，用t来评估其测试误差

3、s/t的划分尽可能保持数据分布的一致性，至少要保持样本的类别比例相似

4、若s，t中的样本比例差别很大，则误差估计将由训练/测试数据分布的差异而产生偏差

5、在给定训练/测试集的样本比例之后，仍存在多种划分方式对初始数据集D进行分割。这些不同的划分将导致不同的训练/测试集

6、在使用留出法时，一般要采用若干次随机划分，重复进行试验后取平均值作为留出法的评估结果

2.2.2交叉验证法

1、先将数据集D划分为k个大小相似的互斥子集

即每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到，然后，每次用k-1个子集的并集作为训练集，

余下的自己作为测试集（总过划分为k个子集）这样便可获得k组训练/测试集，从而进行k次训练和测试，最终返回k个测试结果的均值

2、k最常使用的取值为10

3、将数据集D划分为k个子集存在多种划分方式。k折交叉验证通常要随机使用不同的划分重复p次，最终取这p次k折交叉验证的均值作为结果

2.2.3自助法

1、在前两者中，由于保留了一部分样本用于测试，因此是实际评估的模型所使用的训练集比D小。这会导致些许误差

2、“自助法”直接以自助采样法为基础，给定包含m个样本的数据集D，我们对它进行采样产生数据集d，每次随机从D中挑选一个样本，将其拷贝放入d，

使得该样本在下次采样时仍可能被采到，将这个过程重复执行n次，就得到了包含n个样本的数据集d，这就是自助采样的结果

原文地址：https://www.cnblogs.com/funny-and-point/p/13547004.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行