码迷,mamicode.com
首页 >  
搜索关键字:信息熵    ( 153个结果
评分卡模型剖析之一(woe、IV、ROC、信息熵)
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。        本文重点介绍模型变量WOE以及IV原理,为表述方便,本文将模型目标标量为1记为违约用户,对于目标变量为0记为正常用户;则WOE(weight of Evidenc...
分类:其他好文   时间:2014-09-26 19:39:28    阅读次数:430
每日一个机器学习算法——信息熵
1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:其他好文   时间:2014-09-13 20:02:35    阅读次数:245
快速排序的过程
通过前面问题以及引入了“信息熵”的概念,我们可以重新来理解排序的本质:一组未排序的N个数字,它们一共有N!种重排,其中只有一种排列是满足题意的(譬如从大到小排列)。换句话说,排序问题的可能性一共有N!种。任何基于比伯爵娱乐城较的排序的基本操作单元都是“比较a和b”,这就相当于猜数字游戏里面的一个问句...
分类:其他好文   时间:2014-09-13 18:33:35    阅读次数:195
从信息熵角度去理解问题
信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。三国真人娱乐城一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确...
分类:其他好文   时间:2014-09-13 18:32:25    阅读次数:497
ID3算法
ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量...
分类:其他好文   时间:2014-08-31 11:46:11    阅读次数:298
机器学习【2】决策树中熵和信息增益的计算,构造决策树 ID3
信息熵很亮的是在你知道一个事件的结果后,平均会带给你多大的信息量,当事件的不确定性越大,那么要搞清它所需要的信息量也就越大,也就是信息熵越大,是无序性,不确定性的度量指标。 信息熵的计算: -p[i]logp[i],底数为2 public static double calcEntropy(int p[]) { double entropy = 0; // 用来计算总的样本数量,p[...
分类:其他好文   时间:2014-08-25 15:01:05    阅读次数:293
Machine Learning in Action -Decision Tree
与KNN比较:KNN是计算未知类型数据与已知类型数据之间的距离,与数值计算相关。Decision Tree 先是在已知数据集上构造好一棵决策树,树中的每个分叉会用到一个特征,这就需要用到信息熵的概念,对每个特征计算信息熵 来使得分叉处选取到最好的特征对数据进行分类,(训练集选取好最佳特征,测试集就按...
分类:其他好文   时间:2014-08-23 15:22:50    阅读次数:210
数据集划分——信息熵
上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容。1. 信息熵 熵最初被用在热力学方面的,由热力学第二...
分类:其他好文   时间:2014-08-12 02:58:03    阅读次数:2296
信息熵和称小球问题
先简单说一下关于信息熵的东西:信息熵是信息多少的量度,一个事件所携带的信息量跟它出现的概率反相关,直观上来说,一个事件出现的越频繁则每次该事件出现时携带的信息就少,反之如果一个事件非常少见,则该事件出现的时候携带的信息量就非常高。具体公式是:$$I= -log(p)$$ 也就是$$I=log(p/1...
分类:其他好文   时间:2014-07-30 00:39:12    阅读次数:195
监督式学习 -- 分类决策树(一)
信息熵和信息增益 一、信息熵 信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。它认为: 1、信息传递由信源、信道和信宿组成; 2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。如果把发送信息记为U而接收到信息记 V,由信道可记为通信模型,为P(U|V)。信道模型是一个条件...
分类:其他好文   时间:2014-07-28 00:03:29    阅读次数:451
153条   上一页 1 ... 13 14 15 16 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!