利用python selenium webdriver;PyQt;LDA主题模型;信息熵+word2vector+Kmeans 合成的简历投递小助手,实现海投自动化
分类:
微信 时间:
2019-01-01 22:47:30
阅读次数:
301
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 1、实现类 2、方法: ...
分类:
其他好文 时间:
2018-12-31 00:03:30
阅读次数:
340
R语言︱LDA主题模型——最优主题...:https://blog.csdn.net/sinat_26917383/article/details/51547298#comments ...
分类:
编程语言 时间:
2018-12-20 14:38:54
阅读次数:
219
在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的线 ...
分类:
其他好文 时间:
2018-12-04 13:22:13
阅读次数:
262
本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解,应用于Spark MLlib和Scikit-learn的LDA算法实现,因此值得好好理解。 1. 变分 ...
分类:
编程语言 时间:
2018-12-04 13:15:02
阅读次数:
186
在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢? 1. 非负矩阵分解(NMF)概述 非负矩阵分 ...
分类:
其他好文 时间:
2018-12-04 13:11:14
阅读次数:
273
本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果你对MCMC和Gibbs采样不熟悉,建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。 1. Gibbs采样算法求解LDA的思路 首先,回顾LDA的模 ...
分类:
编程语言 时间:
2018-12-04 13:06:33
阅读次数:
147
隐含狄利克雷分布(Latent Dirichlet Allocation ,简称LDA) 贝叶斯模型贝叶斯模型主要涉及“先验分布”, “数据(似然)”和“后验分布”三块,在贝叶斯学派中: 先验分布 + 数据(似然)= 后验分布可以理解为通过在现先验分布的基础上更新后验分布 二项分布$a = a -2 ...
分类:
其他好文 时间:
2018-11-28 20:30:46
阅读次数:
204
#!/usr/bin/env python # -*- coding:utf-8 -*- import numpy as np import pandas as pd import re df = pd.read_csv("HillaryEmails.csv") df = df[['Id','Ext... ...
分类:
其他好文 时间:
2018-11-27 21:11:38
阅读次数:
297
摘要: 主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。 引言: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关 ...
分类:
其他好文 时间:
2018-11-10 17:54:24
阅读次数:
330