一. LSA 1. LSA原理 LSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出来的一种新的索引和检索方法。该方法和 ...
分类:
其他好文 时间:
2016-12-25 18:45:34
阅读次数:
260
今天在做隐藏微信右上角的分享按钮 百度查到的一串代码,挺好用的 也看了一下别的 查到一篇文章:http://www.2cto.com/weixin/201511/451592.html 作者:人在钱途 为防找不到,就干脆拷贝了一份。 以下为文章中的内容: 之前写了一篇关于这个WeixinJSBrid ...
分类:
微信 时间:
2016-11-30 19:51:36
阅读次数:
491
一、Oracle 下载 http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html 版本分为 c(cloud) g(grid) i(internet) 二、Oracle安装 1. 选中刚才下到的 ...
分类:
数据库 时间:
2016-11-13 01:23:03
阅读次数:
498
一个新时代起源
价值
评价标准
pLSA和MPI
LDA和MapReduce
Rephil和MapReduce
Docker改变世界Docker
boot2docker
CoreOS
Go语言
交叉编...
分类:
其他好文 时间:
2016-11-08 14:26:40
阅读次数:
273
了解LDA需要明白如下数学原理:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA(文...
分类:
其他好文 时间:
2016-10-21 20:22:07
阅读次数:
437
PLSA隐变量主题模型,公式推导网上也好,还是书上也好,都属于从略。 但是无论对于新手来说,还是老手,从略是不合适的,这不是一个科学对待的态度。机器学习就这么几个模型,从略是不是也对不起自己了 好了,闲话少说: 这是第一步,都是使用的条件概率公式,当然,分母p(di,wj)的分解,使用的是CK方程, ...
分类:
其他好文 时间:
2016-09-04 17:10:17
阅读次数:
179
最近接触了pLSA模型,由于该模型中引入了主题作为隐变量,所以需要使用期望最大化(Expectation Maximization)算法求解。 为什么需要EM算法 数理统计的基本问题就是根据样本所提供的信息,对总体的分布或者分布的数字特征作出统计推断。所谓总体,就是一个具有确定分布的随机变量,来自总 ...
分类:
编程语言 时间:
2016-08-16 19:57:14
阅读次数:
250
俗话说“庙小妖风大,水浅王八多”,作为一名自然语言处理的水货研究生,通常只是对论文有着一知半解的了解,然而因为毕竟人老了年纪大容易忘事,有时候还是想把这一知半解的想法用文字写出来,以便之后回顾,看官勿喷,水货要开始动笔了。
文本建模是自然语言处理领域中很基础的内容,而且也已经被研究了千万遍,这个系列我主要的思路是从LSA->pLSA->unigram model ->LDA,其中p...
分类:
其他好文 时间:
2016-05-07 10:12:49
阅读次数:
206
“庙小妖风大,水浅王八多”。还是这句话,这是业余研究生的文本建模系列之二:关于pLSA。前述就到此。
pLSA:Probabilistic Latent Senmantic Indexing.是Hoffman在1999年提出的基于概率的隐语义分析【1】。之所以说是probabilistic,是因为这个模型中还加入了一个隐变量:主题Z ,也正因为此,它被称之为主题模型。
...
分类:
其他好文 时间:
2016-05-07 10:12:31
阅读次数:
280
LDA:Latent Dirichlet Allocation 是一个很著名的文本模型,最初是在2003年被一群大牛提出的,包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比,LDA算是贝叶斯观点的pLSA,所谓贝叶斯观点,就是什么都是不确定的,不像pLSA中的p(z|d),虽然是个隐变量,但是还是确定的值,然而对于贝叶斯学派观点,其概率是不确定的,该概率符合某...
分类:
其他好文 时间:
2016-05-07 10:12:14
阅读次数:
190