首页 > 其他好文 > 详细

【NLP_Stanford课堂】分词

时间：2018-07-29 20:27:20 阅读：184 评论：0 收藏：0 [点我收藏+]

标签：词汇 token 计时 strong 连接符 info 可重复 ken com

一、如何定义一个单词

在统计一句话有多少个单词的时候，首要问题是如何定义一个单词，通常有三种情况：

是否认为句中的停顿词比如Uh是一个单词，我们称之为fragment，或者filled pause。
是否认为一个单词的不同形态是一个单词。
是否认为一个完整的词组，比如San Francisco是一个单词

以上三种在不同任务下有不同的处理方法。

二、统计什么信息

在统计时，我们统计如下信息：

word types：词汇表中的一个元素，不重复
word token：文本中该type的一个实例，可重复

一般如下表示：

corpora：语料库，也就是文本的数据集

N：token的数目

V：单词表，也就是type的集合

三、数据预处理

将所有的大写字母转为小写
将缩写词扩写，比如We‘re 扩写为We are
将连接符去掉，比如state-of-the-art 改写为 state of the are
将自连的单词切分开，比如Lowercase改写为lower case

　　技术分享图片

四、中文分词

对于中文来说，分词更困难，因为没有空格隔开，一般的baseline方法是Maximum Matching（也称作贪心）

Maximum Matching：

给定一个中文单词表和一个要分词的字符串
从字符串的最开始建立一个指针
在单词表中找到指针所指字符所能匹配的最长的单词
移动指针到这个单词的下一个字符
重复步骤3

【NLP_Stanford课堂】分词

标签：词汇 token 计时 strong 连接符 info 可重复 ken com

原文地址：https://www.cnblogs.com/a-present/p/9385708.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！