1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom2 map side join 2.1 利用内存和分布式缓存,也有oom风险2.2 自己的想法,参考hive桶的思路, 第一次MR,将两个文件相同的方法分文件输出并打上标记,排序输出,...
分类:
其他好文 时间:
2014-09-20 21:12:39
阅读次数:
262
前期准备(版本匹配):Hadoop 2.x is faster and includes features, such as short-circuit reads, which will help improve your HBase random read profile. Hadoop 2.x...
分类:
其他好文 时间:
2014-09-19 22:22:26
阅读次数:
368
(1)建student & student1 表:(hive 托管)create table student(id INT, age INT, name STRING)partitioned by(stat_date STRING) clustered by(id) sorted by(age) ....
分类:
其他好文 时间:
2014-09-19 19:09:15
阅读次数:
483
Hadoop大数据零基础高端实战培训系列配文本挖掘项目大数据Hadoop实战视频教程就从最基础的Java语法、数据库、Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库、HBase、Hive、Pig、ZooKeepe...
分类:
其他好文 时间:
2014-09-18 14:33:03
阅读次数:
267
之前同事处理的一个case,记录下hive升级到0.13之后,在创建表时,发现报锁竞争的问题,信息如下:conflictinglockpresentforvipdwmodeEXCLUSIVEhive中有锁是没有问题,但是这里的锁却是数据库层面的锁!而且是排他锁!这个锁的粒度就太大了,这个锁会导致所有的关于这个库的hi..
分类:
数据库 时间:
2014-09-18 03:10:33
阅读次数:
323
一、建表的时候要指明分隔符? hive建表时默认的分隔符是‘\001‘,若在建表的时候没有指明分隔符,load文件的时候文件的分隔符需要是‘\001‘的, 若文件分隔符不是‘\001‘,程序不会报错,但表查询的结果会全部为‘NU...
分类:
其他好文 时间:
2014-09-16 19:16:21
阅读次数:
453
hive在生产环境中由于用户数量和身份的不同,难免会对用户按组进行划分,根据不同组的优先级划分hadoop资源,hadoop fairscheduler支持按用户组划分资源池,每个group对应一个组pool,然后根据pool优先级划分mapreduce资源,在map-site.xml中添加以下配置即可实现按组划分:
mapred.jobtracker.taskScheduler...
分类:
其他好文 时间:
2014-09-16 17:29:10
阅读次数:
286
Hadoop系列之Hive(数据仓库)安装配置1.在NameNode安装cd/root/softtarzxvfapache-hive-0.13.1-bin.tar.gzmvapache-hive-0.13.1-bin/usr/local/hadoop/hive2.配置环境变量(每个节点都需要增加)打开/etc/profile#添加以下内容:exportHIVE_HOME=/usr/local/hadoop/hiveexportPATH..
分类:
其他好文 时间:
2014-09-16 16:07:12
阅读次数:
256