码迷,mamicode.com
首页 > 其他好文 > 详细

中文分词器的总结

时间:2015-02-23 13:11:29      阅读:156      评论:0      收藏:0      [点我收藏+]

标签:自然语言处理   机器学习   中文分词   

0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具

技术分享

                                                                                               图 搜索引擎的框架

1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。只是,中文文字没有完成中文分词的功能,只是按照单个的汉字进行了分割。

2 —— CJKAnalyzer 是专门用于中文文档处理的分析器,继承自org.apache.lucene.analysis.Analyzer类调用,内部CJKAnalyzer 分词器对中文进行切分,同时使用StopFilter过滤器来完成过滤功能,可以实现中文的多元切分和停用词过滤。CJKAnalyzer 中文分析器是lucene-2.3.0源代码目录下contrib目录下analyzers的lucene-analyzer-2.3.0.jar提供的功能。构造函数提供了默认的STOP_WORDS停用词表,当然也可以通过外部输入停用词表来代替。

3 —— IK_CAnalyzer中文分析器实现了以词典分词(目前比较流行的方法)为基础的正反向全切分,以及正反向最大匹配切分两种方法,

IK_CAnalyzer是第三方实现的分析器,继承自Lucene的Analyzer类,针对中文文本进行处理。全切分算法是一种中文分词方法,针对一个句子,对所有可能的词汇切分结果,指数级增长,时空开销非常大。

技术分享

                                                                                        图 网络蜘蛛的建立

4 —— 中文分词遇到的问题

中文的切分歧义是指中文的一句话按照指定的算法可能有两种或者更多的切分方法,而且有些句子,人理解起来也存在歧义问题,更何况计算机呢?
未收录词的识别,一些新词汇、未收录的地名,针对未收录的词,目前采用基于规则和基于统计两种办法进行处理,另外还采用通过机器学习识别新词,机器学习识别信息的好处在于自动寻找一些识别新词的特征,但机器学习算法需要有足够的训练语料,人工准本大规模的训练语料也会十分困难。

中文分词器的总结

标签:自然语言处理   机器学习   中文分词   

原文地址:http://blog.csdn.net/u010700335/article/details/43915937

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!