标签:词汇 token 计时 strong 连接符 info 可重复 ken com
一、如何定义一个单词
在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况:
以上三种在不同任务下有不同的处理方法。
二、统计什么信息
在统计时,我们统计如下信息:
一般如下表示:
corpora:语料库,也就是文本的数据集
N:token的数目
V:单词表,也就是type的集合
三、数据预处理
四、中文分词
对于中文来说,分词更困难,因为没有空格隔开,一般的baseline方法是Maximum Matching(也称作贪心)
Maximum Matching:
标签:词汇 token 计时 strong 连接符 info 可重复 ken com
原文地址:https://www.cnblogs.com/a-present/p/9385708.html