标签:style blog http io 数据 2014 ar div
0、基石——贝叶斯推断
计算后验概率即为我们对参数的估计:
其中:
? ??——输入数据
? ???——待估计的参数
? ??——似然分布
? ???——参数的先验分布
?
对新样本的预测:我们要估计的概率
1、常用的概率分布
Dirichlet Distribution
2、文本建模
2.1 基本模型——unigram model
最基本的一种文本模型。
我们做这样的假设:语料库是从词表中独立的抽取的个。有似然方程
其中是term[t]出现的次数。我们的目标是估计,根据贝叶斯推断的方法,我们需要引入的一个先验分布。
计算后验概率
?
?
?
?
?
?
标签:style blog http io 数据 2014 ar div
原文地址:http://www.cnblogs.com/zjgtan/p/3900362.html