搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

solr5中文分词bug解决

下载 ik分词包地址：http://http://pan.baidu.com/s/1c1RcnAw 1.修改 pom.xml 修改成你使用的版本，保存解压后在工程目录内打开命令窗口输入 mvn -DskipTests clean package 完成后 2.部署项目把生成的jar 放到 s ...

分类：其他好文时间：2016-05-17 19:16:39 阅读次数：318

java+lucene中文分词，来看看百度究竟是怎么找到你想要的（十分重要，楼主幸苦之作）

我想只要是学过数据库的孩纸，不管是mysql，还是sqlsever，一提到查找，本能的想到的便是like关键字，其实去转盘网（分类模式）之前也是采用这种算法，但我可以告诉大家一个很不幸的事情，like匹配其实会浪费大量的有用资源，原因这里不说了请自己想一想，我们还是直接摆事实验..

分类：编程语言时间：2016-05-17 11:49:40 阅读次数：333

java+lucene中文分词，来看看百度究竟是怎么找到你想要的（十分重要，楼主幸苦之作）

我想只要是学过数据库的孩纸，不管是mysql，还是sqlsever，一提到查找，本能的想到的便是like关键字，其实去转盘网（分类模式）之前也是采用这种算法，但我可以告诉大家一个很不幸的事情，like匹配其实会浪费大量的有用资源，原因这里不说了请自己想一想，我们还是直接摆事实验证。现在用去转盘网搜 ...

分类：编程语言时间：2016-05-17 09:55:31 阅读次数：254

[Nutch]Solr配置自定义的中文分词器mmseg4j

上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容，从里面可以看到，默认的分词很乱，所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip，进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面，在workspace目录使用如下命令解...

分类：其他好文时间：2016-05-13 03:36:00 阅读次数：255

[Nutch]指定LUKE的分词器

在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j，那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢？本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的，只能使用mmseg4j的1.9.1版本，因为1.8.5的mmseg4j版本与4.0版本的luke有冲突，请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...

分类：其他好文时间：2016-05-12 23:44:31 阅读次数：225

Lucene：基于Java的全文检索引擎简介

Lucene是一个基于Java的全文索引工具包。基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史全文检索的实现：Luene全文索引和数据库索引的比较中文切分词机制简介：基于词库和自动切分词算法的比较具体的安装和使用简介：系统结构介绍和演示Hacking Lucene：简化的查询分析器，删除的实现，定制的排序，应用接口的扩展从Lucene我们还可以学到什么另外，如...

分类：编程语言时间：2016-05-12 15:39:16 阅读次数：185

分词算法-正向最大匹配算法与逆向最大匹配算法

这种两种分词方法都是机械分词方法，它是按照一定的策略将待分析的汉字串与机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的情况，可以分为最大匹配和最小匹配。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用...

分类：编程语言时间：2016-05-12 15:21:01 阅读次数：864

全文索引----中文分词器mmseg4j

通常情况下，我们根据整个字段来索引数据，字段最长时，也不过十个字；但是还有一种情况，如果我们索引的是一篇文章呢？这时候如何处理这个字段，分词器很好的解决了这个问题。...

分类：其他好文时间：2016-05-12 12:34:07 阅读次数：161

lucene 分词的一些杂谈

找遍了网上所有的中文的分词工具，没有一个可以拿来用的，所以决定还是自己做一个分词的工具把，分词的核心功能： 1.分词基础算法（常见的有正向最大，逆向最大，最多分词，基于统计，基于理解即无词库分词等,当然一个好的搜索引擎必然是基于多种分词方式的） 2.是否支持强制一元分词：这个是商业的搜索引擎必备的。 3.同义词识别，简体中文和繁体中文的识别对应转换,中文和拼音的互转 4.支持中文分词的时候是否考虑...

分类：Web程序时间：2016-05-12 12:01:51 阅读次数：360

Hadoop之仿写搜索引擎

这篇文章，可能比较长，如果你觉得写得好可以把它看完，希望对你有所帮助。写搜索引擎先整理下思路大致分为三步：从网上爬取数据，对拿到的数据进行整理即分词，然后通过关键字匹配拿到数据。我会详细介绍这三步。先讲讲我要实现的效果，从网上拿到标题包括对应的地址，对标题进行分词，通过输入的关键字匹配分词，返回对应的网址。一，爬取数据：开始的时候对网站进行的一个垂直爬取，拿到它的个标题，A标...

分类：其他好文时间：2016-05-12 11:32:45 阅读次数：174

共2158条上一页 1 ... 146 147 148 149 150 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)