TF-IDF 1. 概念 2. 原理 3. java代码实现思路 数据集: 三个MapReduce 第一个MapReduce:(利用ik分词器,将一篇博文,也就是一条记录中的content进行词的拆分) 第一个MapReduce最终运行的结果: 1. 得到数据集中微博的总数; 2. 得到每个词在当前 ...
分类:
编程语言 时间:
2017-04-13 08:46:07
阅读次数:
299
Solr搜索技术 今日大纲 回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档、字段、目录对象(类)、索引写入器类、索引写入器配置类、IK分词器 查询解析器、查询对象(用户要查询的内容)、索引搜索器(索引库的物理位置)、排名文档集合(包含得分文档数... ...
分类:
其他好文 时间:
2017-01-10 23:29:51
阅读次数:
423
一、安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-and-fedora/# 2.安装ElasticSearch,下载rpm包: wget https:// ...
分类:
其他好文 时间:
2016-12-29 14:31:13
阅读次数:
1129
首先,去Elastic官网 https://www.elastic.co/downloads ,下载页有所有Elastic的产品,都是最新的版本(版本号还一致)。 下载Elasticsearch和Kibana。 然后去GitHub下载配套的IK分词器,Smartcn也可以,不过据说没有ik灵活,目前 ...
分类:
其他好文 时间:
2016-12-10 06:42:29
阅读次数:
424
在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器。那么该如何将本地的mysql的数据导入到solr中呢?准备工作:1、mysql数据源:myuser库中的user表(8条数据)/*
NavicatMySQLDataTransfer
SourceServer:localhost
SourceSe..
分类:
数据库 时间:
2016-10-21 17:06:41
阅读次数:
299
分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如,在我们实际用作电商领域的搜索的工作中,类目预判的实现就极须依赖分词,至少需要做到可以对分词器动态加..
分类:
其他好文 时间:
2016-10-21 08:16:40
阅读次数:
274
转载请注明出处:http://www.cnblogs.com/zhuxiaojie/p/5764680.html 本教程基于solr5.5 前言 至于为什么要用solr5.5,因为最新的6.10,没有中文的分词器支持,这里使用的是ik分词器,刚好支持到5.5 ik分词器下载地址 :https://g ...
分类:
其他好文 时间:
2016-09-19 22:24:18
阅读次数:
291
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器 详细实例一: http://www.cnblogs.com/wang-meng/p/5814798.html8, 打开浏览器查看sol ...
分类:
系统相关 时间:
2016-08-28 13:56:55
阅读次数:
263
今天 不知自己装的centos 出现了什么问题, 一直卡在 启动界面, 找了半天没找见原因(最后时刻还是发现原因, 只因自己手欠一怒之下将centos删除了, 而且选择的是在本地磁盘也删除. ..让我哭一会..)..于是便重新安装, 可是问题来了, 之前安装及配置好的zookeeper/redis/ ...
分类:
系统相关 时间:
2016-08-28 13:54:47
阅读次数:
310
在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置IK分词器的文章 IK分词器: http://www.cnblogs.com/wang-meng/p/ ...
分类:
系统相关 时间:
2016-08-28 13:48:07
阅读次数:
272