首页 > 编程语言 > 详细

自然语言处理之初始-语言模型

时间：2019-12-01 11:29:27 阅读：104 评论：0 收藏：0 [点我收藏+]

标签：四种 image 常用方法 mamicode 概率分布等价等于包括方法

文本自然语言处理的一个最最最基本的一个问题：如何用数学符号或公式表示一段文本？如何计算一段文本在某种语言下出现的概率？

语言模型(用概率论的专业术语表示)：为长度为m的字符串确定其概率分布P(w1，w2，...wm)，其中w1到wm依次表示文本中的各个词语。概率值计算公式如下，

技术图片

但是有个问题发现没有？加入一个文本超级长，会怎么样？从第三项开始计算难度就会很大。此时，有人提出了n元模型(n-gram model)。那么n元模型是什么呢？它就是在估算条件概率时，忽略距离大于等于n的上文词的影响。则此时

技术图片

首先，把一段文字抽象成数学表示，用技术图片表示输入的句子，n为句子长度，表示字。表示输出的标签(例如:"我/B爱/M你/E"最理想的标签输出：BME)。其中，o表示的就是B、M、E、S这四种标记，λ为诸如“我”“爱”“你”“中”“国”等句子的每个字，包括标点等非中文字符。

当n=0时，即观测独立性假设，就是0阶隐马尔可夫，每个词都是独立的，例如：我爱你->我/B爱/M你/E，此时，标签/M仅和爱有关系

技术图片

当n=1时，即齐次马尔可夫假设，就是1阶隐马尔可夫，每个词都仅与前一个词有关系，

技术图片

那么从上面的公式我们可以看到，我们渴望得到的解是技术图片，这是不是很熟悉了？条件概率，通过贝叶斯公式即可求解，

技术图片

此处有一问题，我没明白，可能是太菜了，如果有会的，希望各位在评论区给指点一下，万分感谢！！！问题是：λ是给定的输入，因此技术图片计算为常数，可以忽略，因此最大化等价于最大化。我对这个为常熟可忽略不明白。

好，假如我明白了，那么，求技术图片可以先求，按照齐次隐马尔可夫假设，则

技术图片

　　再求技术图片

技术图片

那么技术图片就可求了，即

技术图片

其中，技术图片叫发射概率，叫转移概率。通过设置转移概率为0（）

，可排除类似BBB、EM等不合理的组合。

注：在隐马尔可夫中求解技术图片的常用方法是Veterbi算法，可参考博客： https://blog.csdn.net/sailist/article/details/83064985

学过运筹学的同学更好理解一些

自然语言处理之初始-语言模型

标签：四种 image 常用方法 mamicode 概率分布等价等于包括方法

原文地址：https://www.cnblogs.com/JadenFK3326/p/11964892.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！