概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo ...
分类:
编程语言 时间:
2018-10-05 23:59:35
阅读次数:
492
引言 在这篇文章中,我们将探讨决策树模型的最重要参数,以及它们如何防止过度拟合和欠拟合,并且将尽可能少地进行特征工程。我们将使用来自kaggle的泰坦尼克号数据。 导入数据 查看缺失值 把Cabin’, ‘Name’ and ‘Ticket’移除,并且填充缺失值,并处理分类型变量。 25%用作测试集 ...
分类:
其他好文 时间:
2018-09-14 01:04:26
阅读次数:
290
当输入数据中存在非线性关系的时候,基于线性回归的模型就会失效,而基于树的算法则不受数据中非线性关系的影响,基于树的方法最大的一个困扰时为了避免过拟合而对树进行剪枝的难度,对于潜在数据中的噪声,大型的树倾向于受影响,导致低偏差(过度拟合)或高方差(极度不拟合)。不过如果我们生成大量的树,最终的预测值采 ...
分类:
编程语言 时间:
2018-09-07 20:11:11
阅读次数:
265
回归分析:利用样本(已知数据),产生拟合方程,从而对(未知数据)进行预测 线性回归:一元线性回归;多元线性;广义线性 非线性回归分析 困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理 关系 函数关系:确定性关系 相关关系:非确定性关系 相关系数:使用相关系数衡量线 ...
分类:
其他好文 时间:
2018-05-21 17:56:12
阅读次数:
156
(本节课各种数学式子比较多。。。。。^_^) 决策树 Decision Tree? 介绍? 熵 Entropy? 信息增益 Information Gain? 常见算法? 过度拟合 Overfitting? 剪枝 Prune? 增益率 GainRatio? 更多的DT应?场景类别:? 连续函数,多分 ...
分类:
其他好文 时间:
2018-02-19 14:21:19
阅读次数:
193
回归是指利用样本(已知数据),产生拟合方程,从而对(未知数据)进行预测。 用途:预测、判别合理性。 困难:①选定变量(多元);②避免多重共线性;③观察拟合方程,避免过度拟合;④检验模型的合理性。 因变量与自变量的关系:①相关关系(非确定性关系,比如物理与化学成绩相关性),使用相关系数衡量线性相关性的 ...
分类:
编程语言 时间:
2018-01-15 22:19:13
阅读次数:
195
(原创文章,谢绝转载~) 机器学习入门内容: 1.过程:训练数据 -》 机器学习 -》模型 ; 输入-》模型-》输出 2.overfitting ,过度拟合问题。为了符合所有的数据点,而导致过度拟合的模型。 confront过度拟合的常用方法:(1)简洁模型 (2)留一部分训练数据(可以随机变化)校 ...
分类:
其他好文 时间:
2017-11-02 16:08:24
阅读次数:
349
之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后 ...
分类:
其他好文 时间:
2017-10-11 15:24:16
阅读次数:
133
有时我想:如果我能复制好几份,每个自己都活在不同的平行宇宙多好。人都有永恒不朽的愿望,也有尽善尽美的追求。我们的征途是星辰大海,然而现实中常在泥潭里打滚……想起了一个笑话:Arguing with an Engineer is a lot like wrestling in the mud with ...
分类:
其他好文 时间:
2017-09-24 20:25:39
阅读次数:
239
过拟合的定义:过拟合是指模型过度拟合训练集, 学到训练集中过多的噪音或随机波动,导致模型泛化能力差的情况。它表现为在训练集上表现良好,在测试集上表现差。 解决方法:1.重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。 2.数据集扩增(data au ...
分类:
其他好文 时间:
2017-08-23 23:09:16
阅读次数:
611