一、信息熵 若一个离散随机变量 \(X\) 的可能取值为 \(X = \{ x_{1}, x_{2},...,x_{n}\}\),且对应的概率为: \[ p(x_{i}) = p(X=x_{i}) \] 那么随机变量 \(X\) 的熵定义为: \[ H(X) = -\sum_{i=1}^{n}p(x ...
分类:
其他好文 时间:
2021-06-30 18:03:09
阅读次数:
0
机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。 ...
分类:
其他好文 时间:
2021-06-06 19:49:11
阅读次数:
0
pi表示在信息熵部分中有介绍,如下图中介绍 选择最小的那个0.3 #整个c4.5决策树的所有算法: import numpy as np import operator def creatDataSet(): """ outlook-> 0:sunny | 1:overcast | 2:rain t ...
分类:
其他好文 时间:
2021-05-03 12:13:28
阅读次数:
0
本文主要是对信息熵、信息增益、信息增益比和 Gini 指数的定义进行汇总,使之更加明确记忆。 信息熵和条件熵 信息熵 熵(entropy)是表示随机变量不确定的度量。设 \(X\) 是一个取有限个值的离散随机变量,其概率分布为 \(P(X=x_i) = p_i, \quad i=1, 2, ..., ...
分类:
其他好文 时间:
2021-02-19 13:40:50
阅读次数:
0
1、criterion: 特征选取标准。 默认:gini。 可选gini(基尼系数)或者entropy(信息增益)。 1.1 选择entropy,则是ID3或C4.5算法。 ID3算法原理: a 计算训练集所有样本的信息熵。 b 计算每一特征分类后的信息增益。 c 选择信息增益最大的特征进行分类,得 ...
分类:
其他好文 时间:
2021-01-06 12:02:48
阅读次数:
0
ID3,C4.5算法缺点 ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。 在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分, 也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中, 将不再起作用, ...
分类:
编程语言 时间:
2020-06-17 20:29:17
阅读次数:
57
熵权法 熵值法的主要目的是对指标体系进行赋权 熵越大说明系统越混乱,携带的信息越少,权重越小;熵越小说明系统越有序,携带的信息越多,权重越大。 熵值法是一种客观赋权方法,,借鉴了信息熵思想,它通过计算指标的信息熵,根据指标的相对变化程度对系统整体的影响来决定指标的权重,即根据各个指标标志值的差异程度 ...
分类:
其他好文 时间:
2020-06-12 12:33:14
阅读次数:
234
https://zhuanlan.zhihu.com/p/85374168 基尼指数gini index本身是一个概念,它可以用来描述集合里面分类的混乱程度,和信息熵的意义非常接近,用泰勒展开可以得到是信息熵的近似值。 它可以用来描述很多个分类的集合,不光是2分类。 但是如果应用在CART树上,因为 ...
分类:
其他好文 时间:
2020-05-26 15:04:01
阅读次数:
58
熵,条件熵,相对熵,互信息的相关定义及公式推导 熵是随机变量不确定性的度量,不确定性越大,熵值越大,若随机变量退化成定值,熵为0,均匀分布是最不确定的分布。熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。熵的定义公式如下: 在经典熵的定义中,底数是2,此时熵的单位是bit,若底数是e, ...
分类:
其他好文 时间:
2020-05-09 21:45:35
阅读次数:
136
基本流程 决策树是通过分次判断样本属性来进行划分样本类别的机器学习模型。每个树的结点选择一个最优属性来进行样本的分流,最终将样本类别划分出来。 决策树的关键就是分流时最优属性$a$的选择。使用所谓信息增益$Gain(D,a)$来判别不同属性的划分性能,即划分前样本类别的信息熵,减去划分后样本类别的平 ...
分类:
其他好文 时间:
2020-04-30 21:26:13
阅读次数:
64