搜索关键字：信息熵，搜索到153个结果！码迷,mamicode.com！

最大熵模型 Maximum Entropy Model

熵的概念在统计学习与机器学习中真是很重要，熵的介绍在这里：信息熵 Information Theory 。今天的主题是最大熵模型（Maximum Entropy Model，以下简称MaxEnt），MaxEnt 是概率模型学习中一个准则，其思想为：在学习概率模型时，所有可能的模型中熵最大的模型是最好 ...

分类：其他好文时间：2017-03-13 14:43:55 阅读次数：304

图像压缩基本原理

信息论一些基础自信息I(s) 信息熵H(s) 在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U1…Ui…Un，对应概率为：P1…Pi…Pn，且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logPi ...

分类：其他好文时间：2017-03-05 21:03:31 阅读次数：462

机器学习实战Ch03：决策树

相比kNN的无脑比较相似度，我们需要一种能够较清晰地给出数据内在含义的分类器。这一章给出了“决策树”这种选择，这一概念本身不难理解，问题在于在树的每一层如何划分数据集能达到最好的效果 (书中选用的是ID3算法，虽然不是很理解这个名字，但算法本身不是很难理解) 这里的效果，我们引入信息熵这个概念进 ...

分类：其他好文时间：2017-03-04 21:08:52 阅读次数：150

2017/02/11

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n) 信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低； http://blog.csdn.net/dark_scope/article/ ...

分类：其他好文时间：2017-02-12 14:26:42 阅读次数：179

基于随机变量的熵来进行数据建模和分析

首次接触信息熵，信息增益的概念是在阅读《机器学习实战》这本书的时候了解到的，那个时候对这几个概念还是一知半解，虽然当时可以理解，但是记忆却保持不了太久，几个月后，再次阅读一个数据专家的代码时发现人家对...

分类：其他好文时间：2016-12-19 11:44:06 阅读次数：164

《机器学习实战》——决策树

原理（ID3）：依次选定每个特征，计算信息增益（基本信息熵-当前信息熵），选择信息增益最大的一个作为最佳特征；以该特征作为树的根节点，以该最佳特征的每一个值作为分支，建立子树；重复上述过程，直到：1) 所有类别一致 2) 特征用尽优点：简单容易理解；可处理有缺失值的特征、非数值型数据； ...

分类：其他好文时间：2016-12-04 23:13:31 阅读次数：207

Latent Dirichlet Allocation 文本分类主题模型

文本提取特征常用的模型有：1.Bag-of-words：最原始的特征集，一个单词/分词就是一个特征。往往一个数据集就会有上万个特征；有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语，例如去停词，计算互信息熵等等，但不管怎么训练，特征维度都很大，每个特征的信息量太小；2.统计特征：包括Term f ...

分类：其他好文时间：2016-11-08 13:17:41 阅读次数：5556

信息熵增益

1 计算熵我们检查的属性是是否出去玩。用Excel对上面数据的play变量的各个取值排个序（这个工作簿里把“play”这个词去掉），一共是14条记录，你能数出取值为yes的记录有9个，取值为no的有5个，我们说这个样本里有9个正例，5 个负例，记为S(9+,5-)，S是样本的意思(Sample)。这 ...

分类：其他好文时间：2016-09-17 12:09:33 阅读次数：128

机器学习之决策树

决策树：从给定训练数据集学的一个模型用于对新示例进行分类。我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越高越好，这样避免多次无用的分类。 1.用信息熵度量样本集合纯度。假定当前样本集合D中第k类样本所占的比例为pk（k = 1,2,.....,|y|）,则D的信息熵定 ...

分类：其他好文时间：2016-09-05 12:25:10 阅读次数：230

决策树算法-信息熵-信息增益-信息增益率-GINI系数-转

1. 算法背景介绍分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习说白了很简单，就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本质上就是一 ...

分类：编程语言时间：2016-08-16 19:53:56 阅读次数：1439

共153条上一页 1 ... 7 8 9 10 11 ... 16 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)