码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Sphinx中文分词安装配置及API调用
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编 ...
分类:Windows程序   时间:2016-06-09 12:17:12    阅读次数:412
160602、如何快速实现高并发短文检索
一、需求缘起 某并发量很大,数据量适中的业务线需要实现一个“标题检索”的功能: (1)并发量较大,每秒20w次 (2)数据量适中,大概200w数据 (3)是否需要分词:是 (4)数据是否实时更新:否 二、常见潜在解决方案及优劣 (1)数据库搜索法 具体方法:将标题数据存放在数据库中,使用like来检 ...
分类:其他好文   时间:2016-06-07 12:58:30    阅读次数:207
centos6.7下安装mvn 、安装elasticsearch下ik分词
先说一下安装mvn步骤,如果已安装可以忽略; 在tmp目录下 1.建立mvn目录 mkdir mvn cd /tmp/mvn 2.下载 wget http://apache.fayea.com/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.t... ...
分类:其他好文   时间:2016-06-06 23:29:23    阅读次数:157
结巴中文分词
转自:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ ...
分类:其他好文   时间:2016-06-05 21:39:04    阅读次数:183
IK分词器 整合solr4.7 含同义词、切分词、停止词
IK分词器如果配置成 本人测试切分词可以,但是同义词,扩展词库用不了, 网上查各种资料说IK分词器有个BUG,要自己把jar文件改一下,于是找到IK的源码,里面只有IKAnalyzer的源码,代码如下 自己加了一个IKAnalyzerSolrFactory,代码如下 这样一来就能在配置文件中配置成I ...
分类:其他好文   时间:2016-06-04 16:27:30    阅读次数:1218
elasticsearch分词插件的安装
IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Jav ...
分类:其他好文   时间:2016-06-04 15:00:33    阅读次数:547
制作R中分词的字典的办法
在开始下面步骤之前先让自己的文件可以显示扩展名。 如何显示请谷歌。 第一步:打开一个文本文件 第二步:把你要的词复制到这个文本文件吧。 第三步:将这个文本文件的格式改为dic。即原来文件格式是txt后缀,改成txt后缀。 ...
分类:其他好文   时间:2016-06-02 19:44:45    阅读次数:530
java分词工具-ANSJ与IKAnalyzer比较分析
最近做情感分析,想研究下具体哪个java分词工具好,于是测试了ANSJ和IKAnalyzer的比较: 都是用了默认值,没有进行添加词库和停用词。 ANSJ的代码:scala调用。 /** * 中文分词 * example : println("segment分词测试") val stopWords ...
分类:编程语言   时间:2016-06-01 18:13:12    阅读次数:3104
配置elasticsearch 以及ik分词
https://github.com/medcl/elasticsearch-analysis-ikhttps://www.elastic.co/downloads/past-releases/elasticsearch-2-3-2es:2.3.2ik:1.9.2一安装es:wget 'https: ...
分类:其他好文   时间:2016-05-28 17:45:51    阅读次数:370
[数据库]漫谈ElasticSearch关于ES性能调优几件必须知道的事(转)
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 ...
分类:数据库   时间:2016-05-27 10:51:30    阅读次数:1788
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!