一、什么是N-Gram N-Gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item字符(输入法应用)等。一般来讲,可以从大规模文本或音频语料库生成N-Gram模型。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gram是t ...
分类:
其他好文 时间:
2018-07-05 14:47:19
阅读次数:
375
第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 ...
分类:
其他好文 时间:
2018-04-24 20:22:27
阅读次数:
194
第三章 统计语言模型 1 用数学的方法描述语言规律 普遍描述:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wn组成,(这里应该是特征列表)这里n是句子的长度。现在,我们想知道S在文本中出现的可能性,也就是数学熵上所说的S的概率P(S)。 马尔可夫假设后, 2 延伸阅读: ...
分类:
其他好文 时间:
2018-04-24 20:17:36
阅读次数:
442
语言模型 p(S) 就是语言模型,即用来计算一个句子 S 概率的模型。 那么,如何计算呢?最简单、直接的方法是计数后做除法,即最大似然估计(Maximum Likelihood Estimate,MLE),如下: 其中,count(w1,w2,…,wi?1,wi) 表示词序列(w1,w2,…,wi? ...
分类:
编程语言 时间:
2017-12-25 15:05:33
阅读次数:
207
概念 统计语言模型:是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是 用来计算一个句子的概率的模型 即P(W1,W2,W3....WK)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一 ...
分类:
编程语言 时间:
2017-12-22 00:42:19
阅读次数:
245
在阅读本文之前,建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”(眼下还没公布)。掌握例如以下的几个概念: 什么是统计语言模型 神经概率语言模型的网络结构 CBOW模型和Skip-gram模型的网络结构 Hierarchical Softmax和Negative Sampling ...
分类:
编程语言 时间:
2017-08-16 17:11:29
阅读次数:
345
自然语言从产生開始。逐渐演变为一种基于上下文相关的信息表达和传递方式,在计算机处理自然语言时,一个最主要的问题就是为自然语言上下文相关的特性建立数学模型,叫做统计语言模型(Statistical Language Model)。它是自然语言处理的基础。广泛应用于机器翻译、语音识别、印刷体或手写体识别 ...
分类:
编程语言 时间:
2017-06-13 12:38:06
阅读次数:
279
统计语言模型 统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。统计语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值,它能够有助 ...
分类:
编程语言 时间:
2017-06-04 18:32:35
阅读次数:
200
在阅读本文之前,建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”,掌握如下的几个概念:
什么是统计语言模型
神经概率语言模型的网络结构
CBOW模型和Skip-gram模型的网络结...
分类:
编程语言 时间:
2017-03-16 17:42:17
阅读次数:
525