首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
其他好文
> 详细
开源大数据索引项目hive-solr
时间:
2016-05-07 10:58:05
阅读:
151
评论:
0
收藏:
0
[点我收藏+]
标签:
github地址:
https://github.com/qindongliang/hive-solr
欢迎大家fork和使用
关于这个项目的介绍,请参考散仙前面的文章:
http://qindongliang.iteye.com/blog/2283862
最新更新:
(1)添加了对solrcloud集群的支持
(2)修复了在反序列时对于hive中null列和空值的处理bug
(3)优化了在构建索引时对于null值和空值的忽略
一些测试:
数据量:约一千二百万,8个字段,其中一个是大文本,2个是分词字段,索引前数据体积约20G
索引总耗时:约15分钟
索引后体积:每个shard约6G,共约18G
Hive:限制最大并发map数为30个,怕影响Hbase服务,注意使用Hive建完索引后,需要手动commit一次,使内存索引flush到磁盘上
批处理:每个map里面10万数据,批量处理提交一次,不commit,这个值根据情况设定,太大了容易solrcloud容易丢数据,太小了会影响速度
solrcloud集群版本为5.1使用3台机器,每台一个shard,无副本,jetty的内存给了10G
CPU:24核,注意大文本分词字段非常耗cpu
solr的jvm参数调整:
(1) 调大 SurvivorRatio 区占比,降低survivor区的内存空间
(2)调小NewRatio区占比,增大新生代的内存空间
(3)调大永久代MaxPermSize内存至256M
(4)调整MaxTenuringThreshold=0 ,使大对象加速进入老年代,避免在survivor和eden区来回拷贝,使用YGC次数变多
其他参数还是默认配置
solr服务端配置:
(1)关闭自动commit
(2)设置ramBufferSizeMB为1000 ,约等1G
(3)设置maxBufferedDocs等-1,禁用maxBufferDocs
(4)设置mergeFactor为100
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,我们同行。
开源大数据索引项目hive-solr
标签:
原文地址:http://blog.csdn.net/u010454030/article/details/51332635
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
分布式事务
2021-07-29
OpenStack云平台命令行登录账户
2021-07-29
getLastRowNum()与getLastCellNum()/getPhysicalNumberOfRows()与getPhysicalNumberOfCells()
2021-07-29
【K8s概念】CSI 卷克隆
2021-07-29
vue3.0使用ant-design-vue进行按需加载原来这么简单
2021-07-29
stack栈
2021-07-29
抽奖动画 - 大转盘抽奖
2021-07-29
PPT写作技巧
2021-07-29
003-核心技术-IO模型-NIO-基于NIO群聊示例
2021-07-29
Bootstrap组件2
2021-07-29
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!