码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
solr5中文分词bug解决
下载 ik分词包 地址:http://http://pan.baidu.com/s/1c1RcnAw 1.修改 pom.xml 修改成你使用的版本,保存 解压后在工程目录内 打开命令窗口 输入 mvn -DskipTests clean package 完成后 2.部署项目 把生成的jar 放到 s ...
分类:其他好文   时间:2016-05-17 19:16:39    阅读次数:318
java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验..
分类:编程语言   时间:2016-05-17 11:49:40    阅读次数:333
java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证。 现在用去转盘网搜 ...
分类:编程语言   时间:2016-05-17 09:55:31    阅读次数:254
[Nutch]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:其他好文   时间:2016-05-13 03:36:00    阅读次数:255
[Nutch]指定LUKE的分词器
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:其他好文   时间:2016-05-12 23:44:31    阅读次数:225
Lucene:基于Java的全文检索引擎简介
Lucene是一个基于Java的全文索引工具包。 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史全文检索的实现:Luene全文索引和数据库索引的比较中文切分词机制简介:基于词库和自动切分词算法的比较具体的安装和使用简介:系统结构介绍和演示Hacking Lucene:简化的查询分析器,删除的实现,定制的排序,应用接口的扩展从Lucene我们还可以学到什么 另外,如...
分类:编程语言   时间:2016-05-12 15:39:16    阅读次数:185
分词算法-正向最大匹配算法与逆向最大匹配算法
这种两种分词方法都是机械分词方法,它是按照一定的策略将待分析的汉字串与机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用...
分类:编程语言   时间:2016-05-12 15:21:01    阅读次数:864
全文索引----中文分词器mmseg4j
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。...
分类:其他好文   时间:2016-05-12 12:34:07    阅读次数:161
lucene 分词的一些杂谈
找遍了网上所有的中文的分词工具,没有一个可以拿来用的,所以决定还是自己做一个分词的工具把,分词的核心功能: 1.分词基础算法(常见的有正向最大,逆向最大,最多分词,基于统计,基于理解即无词库分词等,当然一个好的搜索引擎必然是基于多种分词方式的) 2.是否支持强制一元分词:这个是商业的搜索引擎必备的。 3.同义词识别,简体中文和繁体中文的识别对应转换,中文和拼音的互转 4.支持中文分词的时候是否考虑...
分类:Web程序   时间:2016-05-12 12:01:51    阅读次数:360
Hadoop之仿写搜索引擎
这篇文章,可能比较长,如果你觉得写得好可以把它看完,希望对你有所帮助。 写搜索引擎先整理下思路大致分为三步: 从网上爬取数据,对拿到的数据进行整理即分词,然后通过关键字匹配拿到数据。我会详细介绍这三步。 先讲讲我要实现的效果,从网上拿到标题包括对应的地址,对标题进行分词,通过输入的关键字匹配分词,返回对应的网址。一,爬取数据: 开始的时候对网站进行的一个垂直爬取,拿到它的个标题,A标...
分类:其他好文   时间:2016-05-12 11:32:45    阅读次数:174
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!