最近项目经理说为了提高搜索的效率,最近研究了一下elasticsearch。 web开发中,搜索一般都不会用到 like 这样语句,效率太低了。 一般会采用分词,比如以前用过的coreseek,但是很久没更新了。 下面记录下 ubuntu下的安装过程 如果看到下面表示成功 参考: http://ke ...
分类:
其他好文 时间:
2016-05-24 15:13:22
阅读次数:
133
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向J ...
分类:
其他好文 时间:
2016-05-23 16:47:00
阅读次数:
283
映射mapping机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型(string, boolean, date);
分析analysis机制用于进行全文文本Full Text的分词,以建立供搜索用的倒排索引Inverted index.
上边做个总结,后续学习之后就明白了.先看一个查询现象:
在索引中有12个tweets,只有一个包含日期2014-09-15,但是我们看看下面查询...
分类:
其他好文 时间:
2016-05-23 15:18:27
阅读次数:
209
中文分词工具:结巴分词
github地址:https://github.com/fxsjy/jieba一、分词功能
精确模式(默认):试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:
编程语言 时间:
2016-05-22 12:32:43
阅读次数:
268
前几篇博客已经相继公开了去转盘网的所有技术细节,如下: 百度网盘爬虫 中文分词算法 邀请好友注册 js分页部分代码 这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不会写shell的朋友麻烦先 ...
分类:
数据库 时间:
2016-05-22 09:39:12
阅读次数:
206
前几篇博客已经相继公开了去转盘网的所有技术细节,如下:百度网盘爬虫中文分词算法邀请好友注册js分页部分代码这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不..
分类:
数据库 时间:
2016-05-22 00:47:55
阅读次数:
262
开发环境 vs2015 winform 程序 1 首先需要下载对应的DLL 文章后面统一提供程序下载地址 里面都有 2 配置pangu的参数 也可以不配置 采用默认的即可 3 创建索引,将索引存放到本地 4 根据关键字查询本地索引 5 取得查询结果并展示 以上是主要的步骤,下面贴上主要代码,拿来即可 ...
分类:
Web程序 时间:
2016-05-20 19:05:05
阅读次数:
444
你想知道百度是怎么找到你想要的东西的嘛?百度到底是怎么实现的呢?相信看完这篇博文你会豁然开朗,哦,原来是那样啊~~...
分类:
编程语言 时间:
2016-05-19 15:15:29
阅读次数:
186
之前老是有客户说搜索不好用,打错一个字或者加个空格啥的就搜不到东西, 然后就想到了分词搜索,百度查了下分词的大致做法后就开始动手做了, 1.从客户输入以及产品等地方搜集了一些词汇存入词库 2.采用 ‘反向最大匹配’ 测试下来还是能用的,但是用了几天之后发现这种 ‘反向最大匹配’ 并不适合于垂直领域的 ...
分类:
其他好文 时间:
2016-05-17 21:18:46
阅读次数:
304
solr本身对中文是不支持的,所以需要下载中文分词器IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20An..
分类:
其他好文 时间:
2016-05-17 20:00:17
阅读次数:
447