利用python selenium webdriver;PyQt;LDA主题模型;信息熵+word2vector+Kmeans 合成的简历投递小助手,实现海投自动化
分类:
微信 时间:
2019-01-01 22:47:30
阅读次数:
301
这两篇文章(上,下)已经总结得很好了 http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html 1. 数学基础 1.信息论的信息熵:Entropy 2.基尼不纯度:Gini i ...
分类:
编程语言 时间:
2018-12-26 15:53:58
阅读次数:
183
一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据各个特征和它对应的值的变异性的大小来确定客观权重。 一般来说,若某个特征的信息熵越小,表明该特征的值得变异(对整体的影响)程度越大,提供的信息量越多,在综合评价中所能起到 的作用也 ...
分类:
编程语言 时间:
2018-12-25 20:28:15
阅读次数:
297
一、信息论基础 (1)熵 信息熵即信息的期望值,熵是用来度量随机变量的不确定性。数学公式表达如下: 其中负号是用来保证信息量是正数或者零。H(X)就被称为随机变量x的熵,它是对所有可能发生的事件产生的信息量的期望。从公式可以得出结论:随机变量的取值个数越多,状态数也就越多,信息熵就越大,不确定性就越 ...
分类:
其他好文 时间:
2018-12-24 00:16:58
阅读次数:
267
一、通俗解释 熵是衡量“信息量“大小的一个数值。什么叫”信息量“?举个例子。 假设你现在玩一个猜硬币正反面的游戏,有个人扔一次硬币,你猜正反面,猜对了可以拿100块钱,猜错了就没有钱。 现在有一个能预知未来的人,他知道本次抛硬币的结果,并且他愿意告诉你,只要你给他一定数量的钱。 那么在如下四种情况下 ...
分类:
其他好文 时间:
2018-12-05 13:24:11
阅读次数:
255
比特化(Bits) 假设存在一组随机变量X,各个值出现的概率关系如图;现在有一组由X变量组成的序列: BACADDCBAC.....;如果现在希望将这个序列转换为二进制来进行网络传输,那么我们得到一个得到一个这样的序列:01001000111110010010....... 结论: 在这种情况下,我 ...
分类:
其他好文 时间:
2018-11-25 22:14:50
阅读次数:
313
一、复习信息熵 为了解决特征选择问题,找出最优特征,先要介绍一些信息论里面的概念。 1、熵(entropy) python3代码实现: 2、条件熵(conditional entropy) python3代码实现: 3、信息增益(information gain) python3代码实现: 看一个简 ...
分类:
其他好文 时间:
2018-10-28 11:14:54
阅读次数:
190
1. 信息熵 1.1 信息熵的数学本质 一个随机变量或系统所包含信息量的数学期望 1.2 信息熵的物理意义(信息论解释) 对随机变量的所有取值进行编码所需的最短编码长度 消除随机变量的不确定性所需的最短编码长度即为信息熵 1.3 随机变量X的熵: $H(X) = \sum_{i=1}^{n} P(x ...
分类:
其他好文 时间:
2018-10-27 23:32:28
阅读次数:
236
信息熵 熵度量了事物的不确定性,越不确定的事物,它的熵就越大。在没有外部环境的作用下,事物总是向着熵增大的方向发展,所以熵越大,可能性也越大。 $$ H(X)= \sum_{i=1}^np_{(i)}logp_{(i)} $$ 条件熵 X确定时,Y的不确定性度量。 在X发生是前提下,Y发生新带来的熵 ...
分类:
其他好文 时间:
2018-10-01 15:34:45
阅读次数:
272
网上的内容感觉又多又乱,自己写一篇决策树算法。希望对别人有所启发,对自己也是一种进步。 决策树 须知概念 信息熵 & 信息增益 熵: 熵(entropy)指的是体系的混乱的程度,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。 信息熵(香农熵): 是一种信息的度量方式,表示信息的混 ...
分类:
编程语言 时间:
2018-09-24 00:50:03
阅读次数:
185