李航的《统计学习方法》 这本书开篇第一章写得特别好,各个模型的算法推导也比较全,基本涵盖了比较经典的判别模型和生成模型。 《机器学习实战》 这本书代码和应用特别多,了解python用法和机器学习算法的代码实现非常方便。 项亮的《推荐系统实践》 这本书个人感觉偏理论一点,伪代码看着都实现不了,不过关于 ...
分类:
其他好文 时间:
2017-03-05 21:12:32
阅读次数:
403
http://www.52ml.net/1917.html 主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文 ...
分类:
其他好文 时间:
2016-12-22 14:55:29
阅读次数:
186
Mallet:自然语言处理工具包 发表于128 天前 ? 技术, 科研 ? 评论数 6 ? 被围观 1006 Views+ MALLET是基于java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用,虽然是文本的应用,但是完全可以拿到多媒体方面来,例如机器 ...
分类:
其他好文 时间:
2016-12-02 00:57:00
阅读次数:
296
机器学习&数据挖掘 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着 ...
分类:
编程语言 时间:
2016-11-28 07:50:05
阅读次数:
254
词向量的表示主流的有两种方式,一种当然是耳熟能详的google的word2vec,还有一类就是GloVe。那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它...
分类:
其他好文 时间:
2016-11-17 20:45:26
阅读次数:
1329
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f ...
分类:
其他好文 时间:
2016-11-08 13:17:41
阅读次数:
5556
了解LDA需要明白如下数学原理:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA(文...
分类:
其他好文 时间:
2016-10-21 20:22:07
阅读次数:
437
隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手...
分类:
其他好文 时间:
2016-09-06 09:11:09
阅读次数:
7795
PLSA隐变量主题模型,公式推导网上也好,还是书上也好,都属于从略。 但是无论对于新手来说,还是老手,从略是不合适的,这不是一个科学对待的态度。机器学习就这么几个模型,从略是不是也对不起自己了 好了,闲话少说: 这是第一步,都是使用的条件概率公式,当然,分母p(di,wj)的分解,使用的是CK方程, ...
分类:
其他好文 时间:
2016-09-04 17:10:17
阅读次数:
179
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 ...
分类:
其他好文 时间:
2016-07-05 18:58:05
阅读次数:
4412