动态规划 + viterbi最短路径 + 1阶马尔可夫链 最短路径分词是将可能性最大的句子切分出来。首先对句子进行全切分,找出所有可能的字词,利用动态规划生成词图,并利用1阶马尔可夫链计算出所有的路径权值,找出图中最短的路径,属于机械式规则+统计的分词方法。 在句子头尾分别加上B 和 E,找出B和E ...
分类:
其他好文 时间:
2017-08-09 00:04:12
阅读次数:
186
隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。 ...
分类:
其他好文 时间:
2017-07-25 21:08:54
阅读次数:
188
一、前言 上节介绍了ansj的原子切分和全切分。切分完成之后,就要构建最短路径,得到分词结果。 以“商品和服务”为例,调用ansj的标准分词: String str = "商品和服务" ; Result result = ToAnalysis.parse(str); System.out.print ...
分类:
其他好文 时间:
2017-03-31 21:31:24
阅读次数:
321
一、隐含马尔可夫模型(Hidden Markov Model) 1、简介 隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。 2、马 ...
分类:
编程语言 时间:
2017-03-24 16:46:27
阅读次数:
267
链接:https://www.zhihu.com/question/20962240/answer/33438846 霍金曾经说过,你多写一个公式,就会少一半的读者。还是用最经典的例子,掷骰子。假设我手里有三个不同的骰子。 &a ...
分类:
其他好文 时间:
2016-10-28 17:46:07
阅读次数:
242
这篇文章记录一下解决HMM三大问题的第二个问题的学习过程。回忆一下,第二个问题是什么来着?给定HMM模型\(lambda\)和观测序列O,求产生这个观测序列概率最大的状态序列是什么?把这个问题叫做解码问题,也是挺贴切的~ 求解这个问题,有一个经典的算法,叫做Viterbi算法。Viterbi是个了不 ...
分类:
编程语言 时间:
2016-08-28 16:16:50
阅读次数:
360
http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/viterbi_algorithm/s1_pg1.html http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_ ...
分类:
其他好文 时间:
2016-07-15 20:26:30
阅读次数:
263
隐马尔科夫模型(HMM)是一种重要的机器学习模型,同时也是PGM中的一种。本文将通过几个例子来演示HMM可以帮我们做些什么事情。特别地,在这个过程中,我们还将向你介绍HMM中非常重要的前向(Forward)算法以及(基于动态规划思想设计的)维特比(Viterbi)算法。最后再来讨论一下HMM在自然语言处理中的一个应用举例。...
分类:
编程语言 时间:
2016-05-07 07:03:29
阅读次数:
523
1966年3月的一天,美国加州大学洛杉矶分校的Andrew J. Viterbi教授在给研究生讲解缠绕编码的时序译码算法SDCD。但不管他如何讲解,学生就是听不明白。思来想去,Viterbi觉得学生不能理解的原因是该算法的证明过于复杂。于是他开始考虑如何简化这个证明。在经历了持久的烦躁和困惑后,他灵
分类:
编程语言 时间:
2016-03-12 19:57:26
阅读次数:
262
一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483