备忘录：hadoop技术一点积累

时间：2015-11-30 23:54:17 阅读：129 评论：0 收藏：0 [点我收藏+]

标签：

　1.hbase的rowkey是按字典排序的，我看有的资料建议rowkey设计不应该是自增的，应该和这个字典排序相关吧

2.hbase的数据存储是按照region来的，region的设计前段时间在坐飞机时候看了下，看来映像不是太深，有点记忆不清了，不过今天发现，region是请求访问的一个具体源头，也就是说一个请求一个线程都是访问一个region，所以如果一台服务器有8核，假如集群有50台服务器，50*8=400，我们最好定义400个region，region大小也要很好的控制，太大会导致region访问过于频繁，最后数据倾斜，当然hbase有自己机制拆分region，但是碰到极端情况还是需要手动去拆分region。

3.mr编程其实非常痛苦的，似乎现在mr没那么流行，这个观点有点错误了（我之前想的），例如hbase使用有时可以使用mr，让mr对于数据做好清洗过滤的工作，最后以最佳的效果录入到hbase里。我一定要学习spark的，学习mr是学习spark的一个基础。

4.mongodb的灵活在于它的表结构比关系数据库灵活，其实mongodb的使用更像memcache在使用，只不过mongodb提供的功能更加强大，特别是数据结构更加灵活。

备忘录：hadoop技术一点积累

标签：

原文地址：http://www.cnblogs.com/sharpxiajun/p/5008745.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行