对于一个二维信号,比如灰度图像,灰度值的范围是0-255,因此只要根据像素灰度值(0-255)出现的概率,就可以计算出信息熵。但是,对于一个一维信号,比如说心电信号,数据值的范围并不是确定的,不会是(0-255)这么确定,如果进行域值变换,使其转换到一个整数范围的话,就会丢失数据,请高手指点,怎么计...
分类:
其他好文 时间:
2016-01-26 18:11:51
阅读次数:
286
if-then规则的集合,优点是模型具有可读性,分类速度快。决策树常用的算法:ID3算法、C4.5算法、CART算法1、熵(entropy,又称信息熵)因此,熵只依赖于X的分布,与X的取值无关。熵越大,随机变量X的不确定性就越大。如果有0概率,令。单位为比特(bit)或纳特(Nat)2、条件熵——表...
分类:
编程语言 时间:
2015-12-29 12:41:50
阅读次数:
184
《算法导论》中有一节讲的是“(比较)排序算法时间的下界”,本文将论述同一个问题,思路略有差异。本文将从信息熵的角度论述排序算法时间复杂度的下界。若本文论述过程中有错误或是不足,还请各位指正。1. 问题归约 排序,涉及到被排序的序列和排序的方法。(比较)排序算法时间的下界对被排序的序列和排序方法做了以...
分类:
编程语言 时间:
2015-12-22 19:32:03
阅读次数:
219
的优点是,在一个决策树的形式数据是easy理解。和kNN最大的缺点是数据的内在含义,不能给予。1:这个概念很简单文字说明 决策树的类型有非常多。有CART、ID3和C4.5等。当中CART是基于基尼不纯度(Gini)的。这里不做具体解释,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样...
分类:
其他好文 时间:
2015-12-14 16:18:08
阅读次数:
204
Atam教授:核希尔伯特空间( 再生Hilbert空间),蒙塔卡罗方法,KNN,多维线性回归,PSF方法回归,特征之间的非线性关系,deep learning,香农信息熵,回归贝叶斯,稀疏字典构造Jayaram:模糊连通性原理,稀疏分解,非负矩阵分解,svd分解图分割,adaboost,自适应稀疏模...
分类:
其他好文 时间:
2015-12-07 16:00:02
阅读次数:
273
3.1 决策树的构造3.1.1 信息增益熵(entropy)是信息的期望值。如果待分类的事物可能划分在多个分类中,则符号xi的信息定义为:,p(xi)为该分类的概率。为了计算熵,需计算所有类别所有可能包含的信息期望值:,n是分类的数目。3.1.2 划分数据集分类算法需要:上述的测量信息熵、划分数据集...
分类:
其他好文 时间:
2015-12-06 22:47:31
阅读次数:
316
在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高。另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。信息增益(IG)对于一个系统,其信息熵为\(H(S)=-\sum_{i}^{C}P_i...
分类:
编程语言 时间:
2015-12-04 06:27:53
阅读次数:
214
今天想通过一些数据,来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQLSERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误 奇怪了,我的SQL语句中没有LIMIT,这LIMIT哪来的。我翻...
分类:
数据库 时间:
2015-12-04 01:01:56
阅读次数:
284
这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集.....
分类:
编程语言 时间:
2015-12-03 00:15:40
阅读次数:
463
一,预备知识: 信息量: 单个类别的信息熵: 条件信息量: 单个类别的条件熵: 信息增益: 信息熵: 条件熵:(表示分类的类,表示属性V的取值,m为属性V的取值个数,n为分类的个数) 二.算法流程: 实质:递归的先根建树,结束条件(当前子集类别一致),建树量化方法(信息增益) 三.示例代码: pac...
分类:
编程语言 时间:
2015-11-19 14:29:58
阅读次数:
270