本系列文章为《机器学习实战》学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正。 源码在Python3.5上测试均通过,代码及数据 --> https://github.com/Wellat/MLaction 1、基于数据集多重抽样的分类器 1.1 bagging 自举汇聚法(boots ...
分类:
编程语言 时间:
2016-12-30 18:25:14
阅读次数:
631
1.基本思想: 综合某些专家的判断,往往要比一个专家单独的判断要好。在”强可学习”和”弱科学习”的概念上来说就是我们通过对多个弱可学习的算法进行”组合提升或者说是强化”得到一个性能赶超强可学习算法的算法。如何地这些弱算法进行提升是关键!AdaBoost算法是其中的一个代表。 2.分类算法提升的思路: ...
分类:
编程语言 时间:
2016-12-27 23:30:32
阅读次数:
740
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N ...
分类:
编程语言 时间:
2016-12-20 21:00:13
阅读次数:
248
文章链接: http://pan.baidu.com/s/1bQBJMQ 密码:4772 作者在这里提出了基于神经网络的Cascade方法,Cascade最早可追溯到Haar Feature提取时用到的Adaboost算法(参考这个博客:http://blog.csdn.net/zouxy09/ar ...
分类:
Web程序 时间:
2016-12-18 01:31:25
阅读次数:
255
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(ac ...
分类:
编程语言 时间:
2016-12-11 12:52:43
阅读次数:
285
在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。 1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifie ...
分类:
其他好文 时间:
2016-12-09 19:33:42
阅读次数:
210
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。 1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接, ...
分类:
其他好文 时间:
2016-12-06 20:50:43
阅读次数:
612
树的算法总结 1.决策树 下面简述一下生成决策树的步骤:(1) 根据给定的训练数据,根据熵最大原则根据每一个维度来划分数据集,找到最关键的维度。(2) 当某个分支下所有的数据都数据同一分类则终止划分并返回类标签,否则在此分支上重复实施(1)过程。(3) 依次计算就将类标签构建成了一棵抉择树。(4) ...
分类:
编程语言 时间:
2016-12-06 02:49:03
阅读次数:
239
在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。Adaboost既可 ...
分类:
编程语言 时间:
2016-12-06 01:59:10
阅读次数:
207