Probabilistic Latent Semantic Indexing(PLSI/PLSA)是常用的话题模型之一,他通过生成模型来模拟文档的产生过程,然后用Maximum likelihood的方法估计模型中未知参数的值,来获取整个生成模型中的参数值,从而构建起整个生成模型。...
分类:
其他好文 时间:
2014-08-20 16:32:52
阅读次数:
342
本文作为em算法在图模型中的一个应用,推导plsa的em算法。1 em算法em算法是解决一类带有隐变量模型的参数估计问题。1.1 模型的定义输入样本为,对应的隐变量为。待估计的模型参数为,目标为极大化似然函数对于上式的优化,不能通过直接对进行求导,因为一旦求导,就有如下的形式:显然是不好求的。1.2...
分类:
其他好文 时间:
2014-08-02 18:09:53
阅读次数:
527
在矩阵分解中, 有类问题比较常见,即矩阵的元素只有0和1, 对应实际应用中的场景是:用户对新闻的点击情况,对某些物品的购买情况等。基于graphchi里面的矩阵分解结果不太理想,调研了下相关的文献,代码主要实现了基于PLSA的分解方法,详细请参考后面的参考文献
#!/usr/local/bin/python
#-*-coding:utf-8-*-
import sys
import math...
分类:
其他好文 时间:
2014-07-26 02:11:06
阅读次数:
259