码迷,mamicode.com
首页 > 其他好文 > 详细

开源大数据索引项目hive-solr

时间:2016-05-07 10:58:05      阅读:151      评论:0      收藏:0      [点我收藏+]

标签:


github地址:https://github.com/qindongliang/hive-solr 
欢迎大家fork和使用 

关于这个项目的介绍,请参考散仙前面的文章: 
http://qindongliang.iteye.com/blog/2283862 

最新更新: 
(1)添加了对solrcloud集群的支持 
(2)修复了在反序列时对于hive中null列和空值的处理bug 
(3)优化了在构建索引时对于null值和空值的忽略 

一些测试: 

数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G 

索引总耗时:约15分钟 

索引后体积:每个shard约6G,共约18G 

Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上 

批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度 

solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G 

CPU:24核,注意大文本分词字段非常耗cpu 

solr的jvm参数调整: 
(1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间 
(2)调小NewRatio区占比,增大新生代的内存空间 
(3)调大永久代MaxPermSize内存至256M 
(4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多 
其他参数还是默认配置 

solr服务端配置: 
(1)关闭自动commit 
(2)设置ramBufferSizeMB为1000 ,约等1G 
(3)设置maxBufferedDocs等-1,禁用maxBufferDocs 
(4)设置mergeFactor为100 




有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 
技术债不能欠,健康债更不能欠, 求道之路,我们同行。 

技术分享 

开源大数据索引项目hive-solr

标签:

原文地址:http://blog.csdn.net/u010454030/article/details/51332635

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!