0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具
图 搜索引擎的框架
1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。只是,中文文字没有完成中文分词的功能,只是按照单个的汉字进行了分割。
2 —— CJKAnalyzer 是专门用于中文文档处理的分析器,继承自org.apache.lucene.analysis.Analyzer类调用,内部CJKAnalyzer 分词器对中文进行切分,同时使用StopFilter过滤器来完成过滤功能,可以实现中文的多元切分和停用词过滤。CJKAnalyzer 中文分析器是lucene-2.3.0源代码目录下contrib目录下analyzers的lucene-analyzer-2.3.0.jar提供的功能。构造函数提供了默认的STOP_WORDS停用词表,当然也可以通过外部输入停用词表来代替。
3 —— IK_CAnalyzer中文分析器实现了以词典分词(目前比较流行的方法)为基础的正反向全切分,以及正反向最大匹配切分两种方法,IK_CAnalyzer是第三方实现的分析器,继承自Lucene的Analyzer类,针对中文文本进行处理。全切分算法是一种中文分词方法,针对一个句子,对所有可能的词汇切分结果,指数级增长,时空开销非常大。
图 网络蜘蛛的建立
4 —— 中文分词遇到的问题
中文的切分歧义是指中文的一句话按照指定的算法可能有两种或者更多的切分方法,而且有些句子,人理解起来也存在歧义问题,更何况计算机呢?原文地址:http://blog.csdn.net/u010700335/article/details/43915937