首先说下信息熵其中X可以取x1,x2,...xn,Pi为X取xi的概率,信息熵反应X携带的信息量引申到分类系统,类别C可以取值C1,C2...Cn,整个分类系统的熵为其中P(Ci)=Ci类文档数/文档集总文档数信息增益针对的是特征词t,整个系统有t和没t的信息量的差就是信息增益。(1)系统有t时候的...
分类:
其他好文 时间:
2015-11-07 20:34:49
阅读次数:
252
用实体-联系的观点理解概率: 每个变量都要与一个事件关联,变量依赖于事件的存在而存在,两个实体是一对一的联系; 每个事件都要与一个试验关联,事件也依赖于试验的存在而存在,两个实体是多对一的联系; 设变量的取值集合为S,如果在S上定义了一张映射表,这张映射表满足概率分布的性质,那么就称这个变量是...
分类:
其他好文 时间:
2015-10-13 17:04:42
阅读次数:
293
一、1-1 压缩数据量1-2 减少使用空间,减少信息存储空间,提高其传输、存储和处理效率1-6 按压缩过程的可逆性进行分类,可分为无损压缩和有损压缩。 按压缩的原理可以分为:预测编码、变换编码、量化和矢量量化编码、信息熵编码、子带编码、模型编码。二、参考书《数据压缩导论(第4版)》Page 8 .....
分类:
其他好文 时间:
2015-09-06 12:51:17
阅读次数:
200
【主成分分析用了很多次,每次都是似懂非懂意会了事用SPSS解决,身为一个本科数学的甚感惭愧。将原理部分思路总结如下以供时候参考。】主成分分析的目的是在p个特征中通过组合成p个新特征,在其中选取m个特征代表p个原始特征。从信息论的角度考虑,这m个特征蕴含了原始数据大部分的信息熵;从方差(?)的角度,这...
分类:
其他好文 时间:
2015-09-03 15:21:00
阅读次数:
375
#python3 calculate Shannon Entropy
from math import log2
def calcShannonEnt(dataSet):
length,dataDict=float(len(dataSet)),{}
for data in dataSet:
try:dataDict[data]+=1
except:...
分类:
其他好文 时间:
2015-08-29 20:21:06
阅读次数:
392
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此
算法的常见面问题!
决策树是一种依托于策略抉择而建立起来的树,是一种依托于分类、训练上的预测树,根据已知,预测和分类未来。
决策树的建立是不断的使用数据的特征将数据分类的过程,主要的问题在于如何选择划分的特征;
常用的几种决策树算法有ID3、C4.5、CART等;其中ID3使用的是信息熵增益...
分类:
编程语言 时间:
2015-08-25 19:42:19
阅读次数:
349
原文:https://www.zybuluo.com/frank-shaw/note/108124信息熵信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量...
分类:
其他好文 时间:
2015-07-19 17:48:12
阅读次数:
300
ID3算法java实现
1 ID3算法概述
1.1 信息熵
熵是无序性(或不确定性)的度量指标。假如事件A的全概率划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为:
通常以2为底数,所以信息熵的单位是bit。
1.2 决策树
决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它...
分类:
编程语言 时间:
2015-07-10 19:04:15
阅读次数:
313
关于对信息、熵、信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己认为的理解),废话不多说,接下来开始对这几个概念解释,防止自己忘记的同时,望对其他人有个借鉴的作用,如...
分类:
其他好文 时间:
2015-06-16 22:51:30
阅读次数:
159
1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:
编程语言 时间:
2015-06-10 19:07:54
阅读次数:
152