搜索关键字：分词器，搜索到431个结果！码迷,mamicode.com！

Lucene实践之中文分词IKAalyzer

做检索怎么都绕不过中文分词去，学习一下用IKAnalyzer分词器做中文分词。Game Starts参考文档 1）中文分词之Java实现使用IK Analyzer实现 2） IKAnalyzer 独立使用配置扩展词典依赖jar包 1） IKAnalyzer2012FF_u1.jar 最...

分类：其他好文时间：2014-08-21 00:03:03 阅读次数：240

Lucene分词器之庖丁解牛

Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..

分类：其他好文时间：2014-08-10 18:58:01 阅读次数：399

Lucene分词器之庖丁解牛

Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lu...

分类：其他好文时间：2014-08-10 12:35:10 阅读次数：210

lucene4.7学习总结

花了一段时间学习lucene今天有时间把所学的写下来，网上有很多文章但大部分都是2.X和3.X版本的（不前最新版本4.9）,希望这篇文章对自己和初学者有所帮助。学习目录（1）什么是lucene （2）lucene常用类详解（3）lucene简单实例（4）lucene常用分词器（5）lucene多条件查询（6）修改删除索引（7）lucene优化、排序（8）lu...

分类：其他好文时间：2014-08-03 18:07:35 阅读次数：352

Windows下面安装和配置Solr 4.9（三）支持中文分词器

首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib，备注：网上很多文章使用IK中文分词器（IK_...

分类：Windows程序时间：2014-08-03 12:39:15 阅读次数：386

重写lucene.net的分词器支持3.0.3.0版本

lucene.net中每个分词器都是一个类，同时有一个辅助类，这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾，辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类，辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类，EasyAnalyzer和EasyT...

分类：Web程序时间：2014-07-23 22:24:47 阅读次数：268

solr4.x配置IK2012FF智能分词+同义词配置

本文配置环境：solr4.6+ IK2012ff +tomcat7在Solr4.0发布以后，官方取消了BaseTokenizerFactory接口，而直接使用Lucene Analyzer标准接口TokenizerFactory。因此IK分词器2012 FF版本也取消了org.wltea.analy...

分类：其他好文时间：2014-07-23 20:20:15 阅读次数：288

Lucene 学习入门

Lucene 4.9 === #基础准备 - 了解常用分词器，选择合适分词器 - 读取文件编码要正确，非TXT文档需要进行特殊处理或特殊工具读取后才进行分词处理 - TextField内容不能保存过长，最大长度是32766个字节 #StringFie...

分类：其他好文时间：2014-07-22 08:31:36 阅读次数：192

solrcloud和zookeeper的搭建、使用、心得、教训

公司的solr线上服务器，分成差不多是个core给不同的部门不同的业务需求来使用。我接手以来，问题多多，烦扰多多。有不少问题亟待解决，首当其冲的是搜索准确度、数据同步。搜索准确度已经通过改用ansj分词器和不断优化的个人词库和停用词库来解决，这是个不断优化的过程，需要长时间的跟进才有明显效果。第二个...

分类：其他好文时间：2014-07-19 15:19:33 阅读次数：846

新版搜索日志记录-持续更新

更新了公司的搜索，写下日志来激励自己！新版搜索新特性：solr版本升级到solr4.8.1中文分词器改用ansj，开源，简洁，强大，无害词库兼顾任意编码格式，不怕乱码分词器和分词词库分离，降低更新分词器版本难度分词器配置统一在library.properties中，在solr/WEB-INF/cla...

分类：其他好文时间：2014-07-13 08:04:32 阅读次数：268

共431条上一页 1 ... 40 41 42 43 44 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)