在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。
然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:
其他好文 时间:
2014-07-02 10:45:21
阅读次数:
283
本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个样例:1. Markov Chain (马尔科夫链)2. Random Walk(随机游走)3. MC...
分类:
其他好文 时间:
2014-06-26 17:32:16
阅读次数:
189
一、隐马尔科夫HMM假设:
有且只有3种天气:0晴天,1阴天,2雨天
各种天气间的隔天转化概率mp:
mp[3][3]
晴天
阴天
雨天
晴天
0.33333
0.33333
0.33333
阴天
0.33333
0.33333
0.33333
雨天
0.3333...
分类:
其他好文 时间:
2014-06-21 18:29:43
阅读次数:
291
输入法,尤其是拼音输入法,解决的就是一些序列标注的问题,针对给定的状态(拼音),获取其概率最高的隐状态(中文)。
这个是一个标准的HMM,针对HMM的解码过程,是一个很成熟也很完备的东西。
local的计算和存储能力都有限,我们选择一般是二阶马尔科夫,也就是所谓的bigram model。 高阶对质量会有帮助,但是涉及到存储和计算,工程上不可行。
同理,利用ME 以及CRFmodel...
分类:
其他好文 时间:
2014-06-10 18:18:23
阅读次数:
208
打篮球的时候经常遇到这样的情况,11个人,分成4、4、3一共三组,人少的一组上场的时候,由上一场败下阵的队伍中出一个人来补上空位。于是我就想,如此反复的组合队伍,会不会出现一个最强组合,使得这4个人一直赢比赛呢?当然,这忽略了体力不支等现实因素。于是,在场下我就小小的BrainStorm了一下,给了这个问题的一些假设与简化:
假如有N(N>=5)个人打篮球,分成K个队伍(...
分类:
其他好文 时间:
2014-06-07 13:41:31
阅读次数:
182
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包
括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音
输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:
其他好文 时间:
2014-05-30 05:24:57
阅读次数:
212
本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个例子:
1. Markov Chain (马尔科夫链)
2. Random Walk(随机游走)
3. MCMC具体方法:
3.1 M-H法
3.2 Gibbs采样
PS:本篇blog为ese机器学习短期班参考资料(20140516课程)。...
分类:
其他好文 时间:
2014-05-15 23:58:14
阅读次数:
536
如题,列出《随机算法》课程的topic
list,以记录和供有兴趣的朋友研究。Lession1:生日悖论、生日攻击、两个常用数学工具(马尔科夫不等式、切比雪夫不等式)Lession2:radom
quick sort(hw)、矩阵乘法判定、min(max())=max(min())、复杂性类(BPP...
分类:
其他好文 时间:
2014-04-29 16:16:55
阅读次数:
596
之前自己做实验也用过MRF(Markov Random
Filed,马尔科夫随机场),基本原理理解,但是很多细节的地方都不求甚解。恰好趁学习PGM的时间,整理一下在机器视觉与图像分析领域的MRF的相关知识。
打字不易,转载请注明。http://blog.csdn.net/polly_yang/...
分类:
其他好文 时间:
2014-04-29 09:34:46
阅读次数:
494