分类算法:对目标值进行分类的算法 1、sklearn转换器和预估器 2、KNN算法 3、模型选择与调优 4、朴素贝叶斯算法 5、决策树 6、随机森林 sklearn转换器(transfer)与估计器(estimeter) 1、转换器 - 特征工程的父类 转换器 - 特征工程的父类 1、API的实现过... ...
分类:
编程语言 时间:
2019-03-10 12:23:56
阅读次数:
627
[TOC] 1、决策树 树:是由节点和边两种元素组成的结构。其中节点包括根结点、父节点、子节点和叶子节点。 决策树:利用树结构进行决策,每一个非叶子节点是一个特征,表示一个判断条件,每一个叶子节点是是一个类,表示结论。 分类决策树模型:是一种描述对实例进行分类的树形结构。 决策树过程:可以把决策树看 ...
分类:
其他好文 时间:
2019-03-08 23:26:36
阅读次数:
242
简介 相对于决策树、朴素贝叶斯、SVM等有监督学习,聚类算法属于无监督学习。 有监督学习通常根据数据集的标签进行分类,而无监督学习中,数据集并没有相应的标签,算法仅根据数据集进行划分。 由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。 基本思想 在没有标签的数据集中 ...
分类:
其他好文 时间:
2019-03-03 20:21:12
阅读次数:
151
随机森林的特征重要性原理 随机森林的特征重要性原理 随机森林的特征重要性原理 随机森林的特征重要性原理 1、随机森林得到的feature importance的原理? 在随机森林中某个特征X的重要性的计算方法如下: 1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据 ...
分类:
其他好文 时间:
2019-02-25 23:32:33
阅读次数:
1069
一、编写计算历史数据的经验熵函数 In [1]: from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for elem in dataSet: #遍历数据集中每条样本 ...
分类:
编程语言 时间:
2019-02-25 16:37:39
阅读次数:
218
决策树算法是机器学习中十分重要的算法,它的思想很简单,模拟了人的决策思想,就是根据一些条件做一些决策。比如,我们决策今天是否要去逛街,要看天气好不好、心情好不好、有没有妹子陪等等。 常见的决策树有ID3、C4.5和CART决策树,主要区别是在选择相关因数的算法不同,前两者和信息增益有关、后一种是与基 ...
分类:
其他好文 时间:
2019-02-15 12:02:43
阅读次数:
196
Decision stump 基本原理 decision stump,决策树桩(我称它为一刀切),也称单层决策树(a one level decision tree),单层也就意味着尽可对每一列属性进行一次判断。如下图所示(仅对 petal length 进行了判断): 从树(数据结构)的观点来看, ...
分类:
其他好文 时间:
2019-02-14 22:16:12
阅读次数:
563
基于单层决策树的AdaBoost算法源码 Mian.py AdaBoost.py WeakClassifer.py data ...
分类:
编程语言 时间:
2019-02-14 22:04:45
阅读次数:
174
十大经典数据挖掘算法(详细说明) 数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属 ...
分类:
编程语言 时间:
2019-02-06 22:42:19
阅读次数:
183
理论基础 熵 信息增益 算法实现 Python 模型的保存与读取 总结 ...
分类:
其他好文 时间:
2019-02-04 18:08:12
阅读次数:
200