这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编 ...
一、需求缘起 某并发量很大,数据量适中的业务线需要实现一个“标题检索”的功能: (1)并发量较大,每秒20w次 (2)数据量适中,大概200w数据 (3)是否需要分词:是 (4)数据是否实时更新:否 二、常见潜在解决方案及优劣 (1)数据库搜索法 具体方法:将标题数据存放在数据库中,使用like来检 ...
分类:
其他好文 时间:
2016-06-07 12:58:30
阅读次数:
207
先说一下安装mvn步骤,如果已安装可以忽略; 在tmp目录下 1.建立mvn目录 mkdir mvn cd /tmp/mvn 2.下载 wget http://apache.fayea.com/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.t... ...
分类:
其他好文 时间:
2016-06-06 23:29:23
阅读次数:
157
转自:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ ...
分类:
其他好文 时间:
2016-06-05 21:39:04
阅读次数:
183
IK分词器如果配置成 本人测试切分词可以,但是同义词,扩展词库用不了, 网上查各种资料说IK分词器有个BUG,要自己把jar文件改一下,于是找到IK的源码,里面只有IKAnalyzer的源码,代码如下 自己加了一个IKAnalyzerSolrFactory,代码如下 这样一来就能在配置文件中配置成I ...
分类:
其他好文 时间:
2016-06-04 16:27:30
阅读次数:
1218
IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Jav ...
分类:
其他好文 时间:
2016-06-04 15:00:33
阅读次数:
547
在开始下面步骤之前先让自己的文件可以显示扩展名。 如何显示请谷歌。 第一步:打开一个文本文件 第二步:把你要的词复制到这个文本文件吧。 第三步:将这个文本文件的格式改为dic。即原来文件格式是txt后缀,改成txt后缀。 ...
分类:
其他好文 时间:
2016-06-02 19:44:45
阅读次数:
530
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:
编程语言 时间:
2016-06-01 18:13:12
阅读次数:
3104
https://github.com/medcl/elasticsearch-analysis-ikhttps://www.elastic.co/downloads/past-releases/elasticsearch-2-3-2es:2.3.2ik:1.9.2一安装es:wget 'https: ...
分类:
其他好文 时间:
2016-05-28 17:45:51
阅读次数:
370
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 ...
分类:
数据库 时间:
2016-05-27 10:51:30
阅读次数:
1788