记录对概念的理解,用梁山好汉做例子来检验是否理解正确。 1. 事物的信息和信息熵 a. 事物的信息(信息量越大确定性越大): 信息会改变你对事物的未知度和好奇心。信息量越大,你对事物越了解,进而你对事物的好奇心也会降低,因为你对事物的确定性越高。如果你确定一件事件的发生概率是100%,你认为这件事情 ...
分类:
其他好文 时间:
2019-11-09 12:07:05
阅读次数:
97
在数据挖掘中,无论是对数据进行分类、聚类还是异常检测、关联性分析,都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。 欧... ...
分类:
其他好文 时间:
2019-10-17 11:58:52
阅读次数:
119
# 决策树,随机森林 # 决策树结构:if-then # 信息熵: # 例:第一届世界杯32支球队 每个队伍冠军概率1/32 # 可得 log32(程序员认为的log一般都默认是以2为底) = -(1/32*log(1/32)+1/32*log(1/32).....) # 2018 第21届世界杯根... ...
分类:
其他好文 时间:
2019-10-07 17:32:18
阅读次数:
110
信息论主要是对信号所含信息的多少进行量化,其基本思想是一个不太可能发生的事情要比一个可能发生的事情提供更多的信息。 度量信息的集中常用指标有信息熵、条件熵、互信息、交叉熵。 信息熵 信息熵(entropy)简称熵,是对随机变量不确定性的度量。定义为: H(x)=∑pi*log2(pi) 用以下代码来 ...
分类:
其他好文 时间:
2019-09-16 21:48:38
阅读次数:
106
熵,信息熵在机器学习和深度学习中是十分重要的。那么,信息熵到底是什么呢? 首先,信息熵是描述的一个事情的不确定性。比如:我说,太阳从东方升起。那么这个事件发生的概率几乎为1,那么这个事情的反应的信息量就会很小。如果我说,太阳从西方升起。那么这就反应的信息量就很大了,这有可能是因为地球的自转变成了自东 ...
分类:
其他好文 时间:
2019-07-13 10:53:54
阅读次数:
121
原文地址:https://www.jianshu.com/p/d8ceeee66a6f Decision Tree 基本思想在于每次分裂节点时选取一个特征使得划分后得到的数据集尽可能纯。 划分标准 信息增益(Information Gain) 信息增益 = 未划分数据集的信息熵 划分后子数据集的信息 ...
分类:
其他好文 时间:
2019-05-04 00:16:56
阅读次数:
127
问题: 我们在讨论的时候,利用最前面的性质 ,是部分信息, 是信源熵,可是没有关心 是怎么来的?? 是因为有噪声系统信道传递矩阵的除开对角线以外的元素才不等于0要是没有噪声,就压根没有引进H(X|Y)的必要。 (信道传递矩阵定义参考p75面) 有一点值得特别提出,(书上p71面)对于无干扰信道的定义 ...
分类:
其他好文 时间:
2019-04-12 00:53:26
阅读次数:
187
0.决策树 决策树是一种树型结构,其中每个内部节结点表示在一个属性上的测试,每一个分支代表一个测试输出,每个叶结点代表一种类别。 决策树学习是以实例为基础的归纳学习 决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树。到叶子节点的处的熵值为零,此时每个叶结点中的 ...
分类:
其他好文 时间:
2019-04-04 21:52:33
阅读次数:
1128
树模型主要有ID3、C4.5、C5.0、OC1以及CART等,使用最多的树模型为CART,sklearn中的决策树模型是基于CART的。 在介绍树模型之前先介绍一下信息熵、信息增益以及GINi系数。 信息熵:熵度量了事物的不确定性,越不确定的事物,它的熵就越大。 信息增益:它度量了在知道当前特征之后 ...
分类:
其他好文 时间:
2019-03-14 20:06:38
阅读次数:
527
[TOC] 信息和熵 ? 飞翔的猪o 说明:本文是作者在看了weixin公众号【超智能体】录制的学习视频后的总结,有需要请移步公众号【超智能体】,利益无关,良心推荐。大多数教材都将信息和熵混为一谈,统称为信息熵,这其实是不恰当的,因而有了这篇文章的诞生。 定义熵和信息 定义熵之前,首先说明什么是宏观 ...
分类:
其他好文 时间:
2019-03-08 22:06:02
阅读次数:
290