我们可以计算两个数值点之间的距离,也可以计算两个概率分布之间的距离。常见方法有卡方检验(Chi-Square)和KL散度(KL-Divergence)。本文主要介绍KL散度。 先从信息熵说起,假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是{黑洞,到底,吃什么},我们现在要根据一个词语...
分类:
其他好文 时间:
2015-03-12 20:41:22
阅读次数:
322
决策树就是不断选择信息增益最大的属性,进行分类。
核心部分是使用信息增益判断属性的分类性能。信息增益计算如下:
信息熵:
允许有多个类别。
计算所有属性的信息增益,选择最大的作为决策树的根节点。然后,样本分枝,继续判断剩余的属性的信息增益。
信息增益有缺点:信息增益偏袒具有较多值的属性。分裂信息,用增益比率作为衡量标准,如下:
决策树...
分类:
编程语言 时间:
2015-03-02 13:12:55
阅读次数:
346
自然语言处理 基于规则 基于统计统计语言模型中文分词 梁南元--查字典 郭进--统计语言模型 Basis Technology 通用分词器 葛显平、朱安隐含马尔科夫模型信息熵贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特统计语音识别和自然语言处理雅让斯基、布莱尔阿米特.辛格搜索引擎:...
分类:
其他好文 时间:
2015-02-19 20:43:20
阅读次数:
310
信息熵与互信息的概念本文主要介绍信息论中最基础但同时也是贯穿始终的四个概念,分别是信息熵、条件熵、互信息以及条件互信息。尝试着使用通俗易懂的语言,简单浅显的例子来使得大家对理解这几个数学概念提供一些帮助。1.信息熵现在是信息爆炸的时代,我们都可以通过手机接入互联网,有可能你早上睁开眼睛的第一件事情就...
分类:
其他好文 时间:
2014-12-21 11:26:16
阅读次数:
458
信息熵(Entropy)究竟是用来衡量什么的? ...
分类:
其他好文 时间:
2014-12-19 14:19:23
阅读次数:
167
数据分析算法决策树决策树用于对数据集中的记录进行分类。假设每条记录都含有若干条属性,决策树根据属性进行分类。ID3算法如何决定选取哪条属性来进行划分? 判断条件是根据该属性划分后数据集的信息熵最小(信息熵越小表明数据越整齐),也就是熵差值最大。假设A属性共有n个取值,按照A划分后将获得n个分支,每个...
分类:
编程语言 时间:
2014-12-08 17:10:12
阅读次数:
191
信息熵(Entropy)究竟是用来衡量什么的? ...
分类:
其他好文 时间:
2014-11-07 16:35:31
阅读次数:
296
信息熵(Entropy)究竟是用来衡量什么的? ...
分类:
其他好文 时间:
2014-10-30 22:10:27
阅读次数:
245
1.信息熵 我们用一个生动的例子来说明这个概念:刚好这几天举行世界杯,我们都会猜谁会获得冠军。假设有32支球队,编号从1-32。然后问:“冠军是在1-16中吗?”,不是的话就是在6-32中,一次类推。我们最多需要猜测5次就能猜出谁是冠军(log32)。但事实上,我们可能不需要5次就能猜出来,因为像....
分类:
其他好文 时间:
2014-10-20 00:35:22
阅读次数:
253
在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤。测试数据算法工程师算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在...
分类:
其他好文 时间:
2014-10-18 13:56:35
阅读次数:
291