今天看了下这两个算法的思路,比较容易理解,就在这里简单记录一下 ID3算法:决策树中的一种经典算法,属于有监督学习和分类算法,如果遇到连续值需离散处理,以香农熵作为信息获取度量,通过计算特征的信息熵增益来确定一个个的根节点 退出条件如下: 1、标记属性一致 2、无可再分属性,这时就投票决定 缺点:对 ...
分类:
其他好文 时间:
2018-09-16 15:55:42
阅读次数:
162
定义一个事件 $X=x$ 的 自信息 为 $$ I(x) = \log P(x) $$ 信息熵 简称 熵 , 是表示随机变量不确定性的度量. 定义为 $$ H(X) = \mathbb{E}_{X \sim P}[I(x)] = \mathbb{E}_{X \sim P} [\log P(x)] $ ...
分类:
其他好文 时间:
2018-09-14 16:03:45
阅读次数:
168
一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据指标变异性的大小来确定客观权重。 一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信 ...
分类:
编程语言 时间:
2018-09-05 18:04:10
阅读次数:
903
1、自信息 一件事发生的概率越大,其所带的信息量就越小,反之发生的概率越小,信息量就越大。 自信息就是以概率p(x)观察到某一事件发生所携带的信息量,自信息也是概率越大信息量就越小,也可以理解为某个概率事件进行编码所需要的最小编码长度 2、信息熵/香农熵 熵是平均自信息量, ...
分类:
其他好文 时间:
2018-08-30 21:40:04
阅读次数:
273
【摘要】介绍了怎样通过信息量或熵的比较来构造一个决策树的数据挖掘算法,并且就一些特殊的地方进行了讨论分析,例如怎样处理高分枝属性、数值属性和缺失数据以及怎样剪枝.利用模型系统的一些源代码来具体地实现算法中的一些模块,并且描述了国内外的有关数据挖掘的研究情况. 【作者】 张维东 张凯 董青 孙维华 转 ...
分类:
其他好文 时间:
2018-08-23 17:01:25
阅读次数:
208
一、信息熵 百科:信息熵 衡量信息的不确定度; 1)理论提出 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 信息论之父 C. E. Shannon 指出:任何信息都存在冗余,冗余大小与信息中每个符号(数字 ...
分类:
其他好文 时间:
2018-08-14 22:54:03
阅读次数:
1254
一、基础理解 1)公式 2)实例计算基尼系数 3 种情况计算基尼系数: 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小; 3)只有两种类别的数据集 二、使用基尼系数划分节点数据集 1)格式 from sklearn.tree import DecisionTreeClassifier dt ...
分类:
其他好文 时间:
2018-08-14 22:49:50
阅读次数:
16223
信息熵: (看之前可以了解一下信息熵的创始人:克劳德·艾尔伍德·香农(Claude Elwood Shannon ,1916年4月30日—2001年2月24日)) 先给出信息熵的公式: 其中:𝑝(𝑥𝑖)代表随机事件𝑥𝑖的概率。 下面逐步介绍信息熵公式来源! 首先了解一下信息量:信息量是对信 ...
分类:
其他好文 时间:
2018-08-12 15:37:43
阅读次数:
205
1、认识决策树: 决策树思想非常朴素,程序设计中的条件就是if-then结构,最早的决策树就是利用这类结构分割数据的一中分类学习方法。 2、信息论基础-银行贷款分析 香农在1948年提出信息论,单位为比特; 信息熵:可以理解为代价;信息和消除不确定性是相联系的; 信息增益:当得知特征x的信息而使得类 ...
分类:
编程语言 时间:
2018-07-29 22:21:39
阅读次数:
553
1.什么是决策树: 决策树是以树状结构表示数据分类的结果 ? 非叶子结点代表测试的条件。 分支代表测试的结果 2.如何构建决策树: ´1.信息熵(informationentropy):是度量样本集合纯度最常用的一种指标。 ? 2.基尼系数(gini):是度量样本集合不确定性指标。(基尼指数与熵可近 ...
分类:
其他好文 时间:
2018-07-19 13:57:41
阅读次数:
510