找了一些文章,感觉这篇是最好的,转载自:
最好的解释链接
KL散度常用于衡量两个概率分布之间的距离。根据香农定理,对一个概率分布
P(X) 进行最优编码方案编码的平均编码长度为:
也就是说,如果对于概率分布 P(X) 的的编码为最优编码方案时:
现假设在同样的字符集上,存在另一个概率分布 Q(X) ,如果用概率分布
P(X) 的最优编码来为符合分布 Q(X) 的字...
分类:
其他好文 时间:
2014-10-14 11:56:38
阅读次数:
242
Metropolis Hasting Algorithm:MH算法也是一种基于模拟的MCMC技术,一个非常重要的应用是从给定的概率分布中抽样。主要原理是构造了一个精妙的Markov链,使得该链的稳态 是你给定的概率密度。它的优点,不用多说,自然是能够对付数学形式复杂的概率密度。有人说,单维的MH算法...
分类:
编程语言 时间:
2014-10-12 18:25:18
阅读次数:
196
概率分布(Distributions)如图1所看到的,这是最简单的联合分布案例,姑且称之为学生模型。图1当中包括3个变量,各自是:I(学生智力,有0和1两个状态)、D(试卷难度,有0和1两个状态)、G(成绩等级,有1、2、3三个状态)。表中就是概率的联合分布了,表中随便去掉全部包括某个值的行,就能对...
分类:
其他好文 时间:
2014-10-12 17:14:48
阅读次数:
278
混合高斯模型和EM算法 这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与K-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,...
分类:
编程语言 时间:
2014-10-11 17:15:25
阅读次数:
231
共轭分布是一种极大简化贝叶斯分析的方法。其作用是有两个:1.简化贝叶斯公式中概率函数的计算;2.在贝叶斯公式包含多种概率分布的情况下,使这些分布的未知参数在试验前被赋予的物理意义,延续到试验后,便于分析。第二个作用尤为重要。...
分类:
其他好文 时间:
2014-10-06 10:19:30
阅读次数:
162
1、概率密度函数
在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为...
分类:
其他好文 时间:
2014-09-10 14:13:20
阅读次数:
294
常用的分类算法主要有决策树,贝叶斯,KNN,SVM,神经网络以及基于规则的分类算法。本文主要对各种分类算法的特性做一下总结。1. 决策树算法决策树算法是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布。找到最佳决策树是NP完全问题,许多决策树算法都采取启发式的...
分类:
其他好文 时间:
2014-09-02 10:16:54
阅读次数:
341
马尔科夫模型
马尔科夫模型是单重随机过程,是一个2元组:(S,A)。
其中S是状态集合,A是状态转移矩阵。
只用状态转移来描述随机过程。
马尔科夫模型的2个假设
有限历史性假设:t+l时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关;
齐次性假设:从t时刻到t+l时刻的状态转移与t的值无关。
以天气模型为例
天气变化有3中状态S:{1(阴),2(云),...
分类:
其他好文 时间:
2014-08-27 11:01:47
阅读次数:
266
1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的...
分类:
其他好文 时间:
2014-08-22 19:32:59
阅读次数:
281