在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置IK分词器的文章 IK分词器: http://www.cnblogs.com/wang-meng/p/ ...
分类:
系统相关 时间:
2016-08-28 13:48:07
阅读次数:
272
在上一篇[Linux] linux下安装配置 zookeeper/redis/solr/tomcat/IK分词器 详细实例. 我们已经将redis所需tar包拷贝到了linux下的root 根目录下, 接着我们只需要解压就可以了. 先将Redis的tar包拷贝到Linux下的根目录然后解压到redi ...
分类:
系统相关 时间:
2016-08-28 09:52:48
阅读次数:
241
Like直接在数据据中查找可以查到所有所需记录但是会扫描整个表会影响性能CONTAINS是基于全文索引进行查询,查询结果受系统全文索引分词的方法影响查询结果会不全。Select * FROM A Where CONTAINS(B,'"IT"Or"理论"')5257条记录Select * FROM A ...
分类:
其他好文 时间:
2016-08-26 15:00:12
阅读次数:
216
Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark
大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友。
如下是...
分类:
编程语言 时间:
2016-08-25 21:44:02
阅读次数:
352
自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容
分类:
其他好文 时间:
2016-08-25 21:32:06
阅读次数:
403
学习使用全文检索工具后,做一个小结。 其实这个工具用起来非常简单,只需要花几个小时专心阅读完开发手册就可以进入开发阶段了。 讯搜全文检索工具(Xunsearch) 首先它是一款开源的工具,和其它的开源工具一样,简单易用而且功能强大,并且性能也非常卓越。 分词与索引,是全文检索工具的关键。 讯搜底层采 ...
分类:
其他好文 时间:
2016-08-22 21:20:03
阅读次数:
207
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。Had ...
分类:
编程语言 时间:
2016-08-20 16:25:58
阅读次数:
265
Solr是一个高性能,采用Java开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。 快速上手数据挖掘之solr搜索引擎高级教程(Solr ...
分类:
其他好文 时间:
2016-08-19 23:53:30
阅读次数:
215
整理笔记时,某人在看老九门,so 选它作例子。分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuand ...
分类:
其他好文 时间:
2016-08-19 00:39:24
阅读次数:
288
1. 任务 为了实现一些机械分词算法,准备使用“国家语委语料库”的分词词表,在线下载到得词表文件是一个Excel文件。本文的任务就是使用Perl从该Execl文件中提取所有的词语。 词表文件格式如下: 需要的词语的位置在从第8行开始的,第B列的所有单元格。一共有14629个词语。(PS:语料库的分词 ...
分类:
其他好文 时间:
2016-08-18 23:04:03
阅读次数:
251