看到题目就知道我要说什么了,这个话题好像已经被讨论过n次了,看雅虎搜索blog上在06年就有过专题系列文章,地址为:http://ysearchblog.cn/2006/07/post_16.html,文中详细的介绍了有关中文分词的意义,算法,跟搜索引擎的关系等等。个人认为文章质量非常不错。其实我所...
分类:
其他好文 时间:
2016-01-22 02:58:25
阅读次数:
936
目录(?)[+]我们要理解分词技术先要理解一个概念。那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。步骤如下所示:1.首先是到数据库里面索引相关的信息,这就是查询处理。那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库...
分类:
其他好文 时间:
2016-01-22 02:56:16
阅读次数:
6295
https://ruby-china.org/topics/node39http://lutaf.com/category/search-engine
分类:
其他好文 时间:
2016-01-22 02:54:11
阅读次数:
160
分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。 搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。 首先搜索引擎要...
分类:
其他好文 时间:
2016-01-22 02:42:22
阅读次数:
164
本文主要是讲了一些自然语言处理的浅层内容。知识点比较零碎,可见业务场景之繁杂。我们希望从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。...
分类:
编程语言 时间:
2016-01-21 14:00:43
阅读次数:
309
下载地址:http://pan.baidu.com/s/1bowbZLt密码:u6tx课程目录:00.说在前面的话01.heritrix环境搭建02.如何进行主题抓取03.heritrix优化04.解析html网页05.中文分词(1)06.中文分词(2)07.中文分词(3)08.中文分词(4)09.中文分词(5)10.中文分词(6)11.中文分词(7)12.中文分词(8)1..
分类:
Web程序 时间:
2016-01-15 17:52:03
阅读次数:
157
这次更新,博客加入了搜索功能,使用的Lucene做的搜索,分词器采用的IKAnalyzer。因为IKAnalyzer没有在Maven的中央库中,所以我们得手动添加Jar包到我们的Maven项目中。1、首先我在项目根目录中创建一个lib文件夹,将jar包拷贝到lib文件夹下2、然后我们在maven的p...
分类:
编程语言 时间:
2016-01-12 11:21:14
阅读次数:
186
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如:张三说的确实在理智能分词的结果是:张三 | 说的 | 确实 | 在理 最细粒度分词结果:张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在...
分类:
其他好文 时间:
2016-01-11 20:31:31
阅读次数:
228
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。1.版本信息 solr版本:4.7.0 需要ik-analyzer版本:IK Analyzer 2012FF_hf12.配置步骤下载压缩解压.....
分类:
其他好文 时间:
2016-01-09 18:31:17
阅读次数:
156