标签:
最近在读吴军的《数学之美》,书里很多内容之前已经略有了解,这次有了新体会,随手记下,算是开卷有益吧。
--20160701
1. Hidden Markov Model
从对(相对静态的)随机变量的研究发展到对随机变量的时间序列S1,S2,S3..., 即随机过程(动态的)的研究。
2. 信息的作用
消除不确定性。也就是说,收集更多的相关信息,可以得到更明确的结论。
joint probability:X和Y一起出现的概率
conditional probability:在Y取不同值的前提下X的概率分布
3. 信息论
信息熵 entropy
互信息 mutual information
相对熵 relative entropy (kullback-leibler divergence)
相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算 KL散度就行了。(找个机会入门下信息论,这段出现的词都不知道是啥)
4. 产生序列
后验概率最大(后验概率最大是最优,是匹配)
5. 聚类
期望最大化。(有了新感觉啊,随机初始化,期望最大化,调参,自适应,联想到这两天看的spark,这个应该是比较适合用spark这种框架来算,因为要算迭代,用RDD,没有中间写入,lazy计算,可以优化计算过程,是不是更好)
标签:
原文地址:http://www.cnblogs.com/blogtomorrow/p/5634403.html