熵的概念在统计学习与机器学习中真是很重要,熵的介绍在这里:信息熵 Information Theory 。今天的主题是最大熵模型(Maximum Entropy Model,以下简称MaxEnt),MaxEnt 是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好 ...
分类:
其他好文 时间:
2017-03-13 14:43:55
阅读次数:
304
信息论一些基础 自信息I(s) 信息熵H(s) 在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi ...
分类:
其他好文 时间:
2017-03-05 21:03:31
阅读次数:
462
相比kNN的无脑比较相似度,我们需要一种能够较清晰地给出数据内在含义的分类器。 这一章给出了“决策树”这种选择,这一概念本身不难理解,问题在于 在树的每一层如何划分数据集能达到最好的效果 (书中选用的是ID3算法,虽然不是很理解这个名字,但算法本身不是很难理解) 这里的效果,我们引入信息熵这个概念进 ...
分类:
其他好文 时间:
2017-03-04 21:08:52
阅读次数:
150
H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n) 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低; http://blog.csdn.net/dark_scope/article/ ...
分类:
其他好文 时间:
2017-02-12 14:26:42
阅读次数:
179
首次接触信息熵,信息增益的概念是在阅读《机器学习实战》这本书的时候了解到的,那个时候对这几个概念还是一知半解,虽然当时可以理解,但是记忆却保持不了太久,几个月后,再次阅读一个数据专家的代码时发现人家对...
分类:
其他好文 时间:
2016-12-19 11:44:06
阅读次数:
164
原理(ID3): 依次选定每个特征,计算信息增益(基本信息熵-当前信息熵),选择信息增益最大的一个作为最佳特征; 以该特征作为树的根节点,以该最佳特征的每一个值作为分支,建立子树; 重复上述过程,直到:1) 所有类别一致 2) 特征用尽 优点: 简单容易理解; 可处理有缺失值的特征、非数值型数据; ...
分类:
其他好文 时间:
2016-12-04 23:13:31
阅读次数:
207
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f ...
分类:
其他好文 时间:
2016-11-08 13:17:41
阅读次数:
5556
1 计算熵我们检查的属性是是否出去玩。用Excel对上面数据的play变量的各个取值排个序(这个工作簿里把“play”这个词去掉),一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5 个负例,记为S(9+,5-),S是样本的意思(Sample)。这 ...
分类:
其他好文 时间:
2016-09-17 12:09:33
阅读次数:
128
决策树:从给定训练数据集学的一个模型用于对新示例进行分类。 我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越高越好,这样避免多次无用的分类。 1.用信息熵度量样本集合纯度。 假定当前样本集合D中第k类样本所占的比例为pk(k = 1,2,.....,|y|),则D的信息熵定 ...
分类:
其他好文 时间:
2016-09-05 12:25:10
阅读次数:
230
1. 算法背景介绍 分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本质上就是一 ...
分类:
编程语言 时间:
2016-08-16 19:53:56
阅读次数:
1439