利用python selenium webdriver;PyQt;LDA主题模型;信息熵+word2vector+Kmeans 合成的简历投递小助手,实现海投自动化
分类:
微信 时间:
2019-01-01 22:47:30
阅读次数:
301
前置知识: sigmod 函数 LR 1层神经网络 dL/dz 简称dz_,L(a,y)使用交叉熵。 da_ = dL/da = (-(y/a) + ((1-y)/(1-a))) dz_ = dL/da * da/dz = da_* g'(z) dw_ = dL/dz *dz/dw = dz* x ...
分类:
其他好文 时间:
2018-12-30 19:05:43
阅读次数:
482
在此我们以MSE作为代价函数: 其中, C表示代价 函数 ,x表示样本, y表示实际值, 表示实际值, 表示实际值, a表示输出值, 表示输出值, n表示样本的总数。为简单起见 表示样本的总数。为简单起见 表示样本的总数。 a=σ(z), z=∑W j*X j+bσ() 是激活函数 使用梯度下降法( ...
分类:
其他好文 时间:
2018-12-30 13:59:55
阅读次数:
206
这两篇文章(上,下)已经总结得很好了 http://www.cnblogs.com/pinard/p/6050306.html https://www.cnblogs.com/pinard/p/6053344.html 1. 数学基础 1.信息论的信息熵:Entropy 2.基尼不纯度:Gini i ...
分类:
编程语言 时间:
2018-12-26 15:53:58
阅读次数:
183
一、熵权法介绍 熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 熵权法的基本思路是根据各个特征和它对应的值的变异性的大小来确定客观权重。 一般来说,若某个特征的信息熵越小,表明该特征的值得变异(对整体的影响)程度越大,提供的信息量越多,在综合评价中所能起到 的作用也 ...
分类:
编程语言 时间:
2018-12-25 20:28:15
阅读次数:
297
一、信息论基础 (1)熵 信息熵即信息的期望值,熵是用来度量随机变量的不确定性。数学公式表达如下: 其中负号是用来保证信息量是正数或者零。H(X)就被称为随机变量x的熵,它是对所有可能发生的事件产生的信息量的期望。从公式可以得出结论:随机变量的取值个数越多,状态数也就越多,信息熵就越大,不确定性就越 ...
分类:
其他好文 时间:
2018-12-24 00:16:58
阅读次数:
267
如何理解K-L散度(相对熵) Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所 ...
分类:
其他好文 时间:
2018-12-24 00:13:24
阅读次数:
146
交叉熵损失是分类任务中的常用损失函数,但是是否注意到二分类与多分类情况下的交叉熵形式上的不同呢? 两种形式 这两个都是交叉熵损失函数,但是看起来长的却有天壤之别。为什么同是交叉熵损失函数,长的却不一样? 因为这两个交叉熵损失函数对应不同的最后一层的输出:第一个对应的最后一层是softmax,第二个对 ...
分类:
其他好文 时间:
2018-12-24 00:12:53
阅读次数:
141
知识储备 相互熵 信息增益(互信息) 条件概率: 全概率公式: 贝叶斯公式: 思考问题: 给定一个样本D,计算样本A1, A2, ...An发生的概率哪一个可能是会是最正确的呢?又怎样通过贝叶斯来解决这个问题? 通过贝叶斯公式 选择n个样本中概率最大的那个作为最后的结论。p(D)是常数,假定p(Ai ...
分类:
其他好文 时间:
2018-12-22 19:39:46
阅读次数:
224
GBDT的核心就在于累加所有树的结果作为最终结果。分类树决策树的分类算法有很多,以具有最大熵的特征进行分类,以信息增益特征进行分类(ID3),以增益率特征进行分类(C4.5),以基尼系数特征进行分类(CART分类与回归树)等等。这一类决策树的特点就是最后的结果都是离散的具体的类别,比如苹果的好/坏,性别男/女。回归树回归树与分类树的流程大致一样,不同的是回归树在每个节点都会有一个预测值,以年龄为例
分类:
其他好文 时间:
2018-12-12 10:32:53
阅读次数:
286