1. 交叉验证概述 进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一 ...
分类:
其他好文 时间:
2018-07-02 22:07:38
阅读次数:
270
概念:各种模型融合,结果取平均值或投票等项目经验:输出每个模型预测结果的情况,剔除预测效果差的模型(例如预测正样本比率是否符合原数据集正样本比率)Stacking(堆叠)模型:第一阶段最好交叉验证优点:使模型的边界更加平稳,效果更好,过拟合风险更低缺点:消耗时间大,不适合实时处理,只适合离线操作 转 ...
分类:
编程语言 时间:
2018-07-02 14:16:23
阅读次数:
170
普通交叉验证OCV OCV是由Allen(1974)在回归背景下提出的,之后Wahba和Wold(1975)在讨论 了确定多项式回归中多项式次数的背景,在光滑样条背景下提出OCV。 Craven和Wahba(1979),Silverman(1985),Bates和其他人(1987),Wahba(19 ...
分类:
其他好文 时间:
2018-06-29 14:01:38
阅读次数:
557
一.基本概述 用交叉验证的目的是为了得到可靠稳定的模型。 消除测试集与训练集选择的不好,导致训练的模型不好。 二.k折交叉验证 K折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它 ...
分类:
其他好文 时间:
2018-06-23 19:18:49
阅读次数:
285
题目:选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。 其中代码主要参考:https://blog.csdn.net/snoopy_yuan/article/details/64131129 为了练习我采用的数据集与原博客中的有所区别,是UCI中一个霓虹人搞的有关于大肠 ...
分类:
其他好文 时间:
2018-06-18 23:48:53
阅读次数:
640
k-近邻算法采用测量不同特征值之间的距离方法(上面写的公式)进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 原理:1.存在一个训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。 2.输入没有标签的新数据后,将新 ...
分类:
其他好文 时间:
2018-05-14 23:05:15
阅读次数:
409
在训练深度学习模型的时候,通常将数据集切分为训练集和验证集.Keras提供了两种评估模型性能的方法: 使用自动切分的验证集 使用手动切分的验证集 一.自动切分 在Keras中,可以从数据集中切分出一部分作为验证集,并且在每次迭代(epoch)时在验证集中评估模型的性能. 具体地,调用model.fi ...
分类:
其他好文 时间:
2018-05-14 16:51:46
阅读次数:
5340
一、正则化 1、模型选择典型的方式就是正则化。正则化就是结构风险最小化策略的实现,就是在经验风险项中添加一个郑泽华想或者叫做惩罚项。 正则化项与模型的关系一般是模型复杂度越高,正则化项的值就会越大。 正则化项的作用就是平衡经验风险较小与模型复杂度较小。最好的结果就是经验风险和模型复杂度同时较小。 正 ...
分类:
其他好文 时间:
2018-05-14 10:24:37
阅读次数:
232
代码全部从Kaggle整理过来,仅做了一点点修改: 我在源码的基础上加了交叉验证提高了一点点分数。。。 ...
分类:
其他好文 时间:
2018-04-28 16:51:56
阅读次数:
197
(草稿) Random Forest的随机性表现在哪里。 第一,是选择训练样本的随机性,又放回的 第二,是选择树节点特征的随机性。在n个特征中选择nsub个子特征的最优,但是会增加树对样本的你和程度,但是会提高泛化能力,可采用交叉验证的方法确定合适的nsub。 https://www.cnblogs ...
分类:
其他好文 时间:
2018-04-24 00:25:00
阅读次数:
203