根据分类器数目的多少,分类计数可分为单分类器技术和多分类器技术。单分类器技术中比较有代表性的是贝叶斯和决策树。多分类器组合思想起源于 集成学习算法。继承学习算法是机器学习的一种新的学习思想,该学习算法把同一个问题分解到多个不同的模块中,由多个学习器一起学习,共同解决 目标问题,从而提高分类器的泛化能 ...
分类:
其他好文 时间:
2018-10-10 23:39:10
阅读次数:
286
【火炉炼AI】机器学习017 使用GridSearch搜索最佳参数组合 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit learn 0.19, matplotlib 2.2 ) 在前面的文章( "【火炉炼AI】机器学习012 用随机森林构建汽车评 ...
分类:
编程语言 时间:
2018-10-10 14:39:07
阅读次数:
205
【火炉炼AI】机器学习007 用随机森林构建共享单车需求预测模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit learn 0.19, matplotlib 2.2 ) 共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班 ...
分类:
其他好文 时间:
2018-10-10 10:36:50
阅读次数:
171
概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo ...
分类:
编程语言 时间:
2018-10-05 23:59:35
阅读次数:
492
Ensemble learning 集成算法 目的:让机器学习效果更好,单个不行,群殴走起 Bagging:并行 训练多个分类器取平均 全称:bootstrap aggregation(说白了就是并行训练一堆分类器) 最典型的代表就是随机森林啦 随机:数据采样随机,特征选择随机 森林:很多个决策树并 ...
分类:
编程语言 时间:
2018-10-04 10:06:59
阅读次数:
253
1.实验背景 本次实验是Kaggle上的一个入门比赛——Titanic: Machine Learning from Disaster。比赛选择了泰坦尼克号海难作为背景,并提供了样本数据及测试数据,要求我们根据样本数据内容建立一个预测模型,对于测试数据中每个人是否获救做个预测。样本数据包括891条乘 ...
分类:
其他好文 时间:
2018-09-24 14:43:10
阅读次数:
275
当输入数据中存在非线性关系的时候,基于线性回归的模型就会失效,而基于树的算法则不受数据中非线性关系的影响,基于树的方法最大的一个困扰时为了避免过拟合而对树进行剪枝的难度,对于潜在数据中的噪声,大型的树倾向于受影响,导致低偏差(过度拟合)或高方差(极度不拟合)。不过如果我们生成大量的树,最终的预测值采 ...
分类:
编程语言 时间:
2018-09-07 20:11:11
阅读次数:
265
五、随机森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking 八、学习scikit-learn文档, 官方学习文档: http://scikit-learn.org http://scikit-learn.org/stable/u ...
分类:
其他好文 时间:
2018-09-04 22:33:28
阅读次数:
478
代码实现: 结果: 可视化(查看每个预测条件的影响): 分析:鸢尾花的花萼长度在小于6时预测准确率很高,随着长度的增加,在6~7这段中,预测出现较大错误率,当大于7时,预测会恢复到较好的情况。宽度也出现类似的情况,在3~3.5这个范围出现较高错误,因此在训练中建议在训练数据中适量增加中间部分数据的训 ...
分类:
其他好文 时间:
2018-09-04 13:52:33
阅读次数:
205
一、什么是集成学习 二、Soft Voting Classifier 更合理的投票,应该有的权值 三、Bagging 和 Pasting 四、oob (Out-of-Bag) 和关于Bagging的更多讨论 ...
分类:
其他好文 时间:
2018-09-03 21:59:04
阅读次数:
327