码迷,mamicode.com
首页 > 其他好文 > 详细

中文分词(概况)

时间:2020-06-25 19:54:40      阅读:51      评论:0      收藏:0      [点我收藏+]

标签:词性标注   重复   没有   语法   不同的   规则   大致   词法   机械   

中文词法分析
中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示

中文词法分析难点

  1. 重叠词,离合词,词缀
  2. 中文词语的切分歧义
  3. 中文未定义词
  4. 词性标注

解决方法:

  1. 基于词典的机械切分算法
  2. 基于规则的切分算法
  3. 基于统计的切分算法

对于未登录词的处理。未登录词大致包括以下几类
中国人名,翻译地名,机构名,商标字号,专业术语,?缩略语,如三个代表、扫黄打非。
?新词语,如美刀、港刀
对每一类未登录词都要构造专门的识别算法,别的主要依据是内部构成规律(用字规律)、外部环境(上下文)和重复出现规律
各种不同类型的未登录词识别都需要收集大量
数据,建立不同的数据模型。常用的方法包括

中文分词(概况)

标签:词性标注   重复   没有   语法   不同的   规则   大致   词法   机械   

原文地址:https://www.cnblogs.com/aspiration/p/13192396.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!