码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
elasticsearch安装
最近项目经理说为了提高搜索的效率,最近研究了一下elasticsearch。 web开发中,搜索一般都不会用到 like 这样语句,效率太低了。 一般会采用分词,比如以前用过的coreseek,但是很久没更新了。 下面记录下 ubuntu下的安装过程 如果看到下面表示成功 参考: http://ke ...
分类:其他好文   时间:2016-05-24 15:13:22    阅读次数:133
Elasticsearch安装ik中文分词插件
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向J ...
分类:其他好文   时间:2016-05-23 16:47:00    阅读次数:283
ElasticSearch(六)--映射和分析
映射mapping机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型(string, boolean, date); 分析analysis机制用于进行全文文本Full Text的分词,以建立供搜索用的倒排索引Inverted index. 上边做个总结,后续学习之后就明白了.先看一个查询现象: 在索引中有12个tweets,只有一个包含日期2014-09-15,但是我们看看下面查询...
分类:其他好文   时间:2016-05-23 15:18:27    阅读次数:209
结巴中文分词使用学习(python)
中文分词工具:结巴分词 github地址:https://github.com/fxsjy/jieba一、分词功能 精确模式(默认):试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:编程语言   时间:2016-05-22 12:32:43    阅读次数:268
数据库定时备份原理,代码
前几篇博客已经相继公开了去转盘网的所有技术细节,如下: 百度网盘爬虫 中文分词算法 邀请好友注册 js分页部分代码 这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不会写shell的朋友麻烦先 ...
分类:数据库   时间:2016-05-22 09:39:12    阅读次数:206
mysql数据库自动备份脚本分享
前几篇博客已经相继公开了去转盘网的所有技术细节,如下:百度网盘爬虫中文分词算法邀请好友注册js分页部分代码这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不..
分类:数据库   时间:2016-05-22 00:47:55    阅读次数:262
全文检索 使用最新lucene3.0.3+最新盘古分词 pangu2.4 .net 实例
开发环境 vs2015 winform 程序 1 首先需要下载对应的DLL 文章后面统一提供程序下载地址 里面都有 2 配置pangu的参数 也可以不配置 采用默认的即可 3 创建索引,将索引存放到本地 4 根据关键字查询本地索引 5 取得查询结果并展示 以上是主要的步骤,下面贴上主要代码,拿来即可 ...
分类:Web程序   时间:2016-05-20 19:05:05    阅读次数:444
java中文分词算法
你想知道百度是怎么找到你想要的东西的嘛?百度到底是怎么实现的呢?相信看完这篇博文你会豁然开朗,哦,原来是那样啊~~...
分类:编程语言   时间:2016-05-19 15:15:29    阅读次数:186
垂直细分领域的分词搜索
之前老是有客户说搜索不好用,打错一个字或者加个空格啥的就搜不到东西, 然后就想到了分词搜索,百度查了下分词的大致做法后就开始动手做了, 1.从客户输入以及产品等地方搜集了一些词汇存入词库 2.采用 ‘反向最大匹配’ 测试下来还是能用的,但是用了几天之后发现这种 ‘反向最大匹配’ 并不适合于垂直领域的 ...
分类:其他好文   时间:2016-05-17 21:18:46    阅读次数:304
solr中文分词器IK-analyzer安装
solr本身对中文是不支持的,所以需要下载中文分词器IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20An..
分类:其他好文   时间:2016-05-17 20:00:17    阅读次数:447
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!