概述
所有的Hadoop命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。...
分类:
其他好文 时间:
2015-08-13 18:13:08
阅读次数:
209
前言: 都说现在是草根为尊的时代,近年来hadoop及spark技术在国内越来越流行。而且渐渐现成为企业的新宠。在DT时代全面来临之前,能提早接触大数据的技术必然能先人一步。本文作为Hadoop系列的第一篇,将HDFS和MapRed两个技术核心用2个实例简单实现一些,希望能供hadoop入门的朋友....
分类:
其他好文 时间:
2015-08-07 21:51:27
阅读次数:
152
一、CLI操作: 1、普通设置: set?hive.cli.print.header=true;????//?打印查询头,需要显示设置
set?hive.mapred.mode=strict;?????//?hive?strict模式,分区表必须在where中分区过滤,不允许笛卡...
分类:
其他好文 时间:
2015-08-07 11:37:07
阅读次数:
129
准备linux环境【java、ip、hostname、hosts、iptables、chkconfig、ssh】下载稳定版2.2.0修改etc/hadoop目录下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml启动验证文件c...
分类:
其他好文 时间:
2015-07-30 23:04:00
阅读次数:
138
select count(distinct user_id) from dm_user where ds=20150701;
使用disticnt函数,所有的数据只会shuffle到一个reducer上,导致reducer数据倾斜严重
优化后为
set mapred.reduce.tasks=50;
select count(*) from
(select user_id...
分类:
其他好文 时间:
2015-07-28 13:11:29
阅读次数:
103
跑MR的时候抛出异常:java.lang.Throwable: Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:250)Caused by: java.io.IOException: Task...
分类:
其他好文 时间:
2015-07-02 09:55:28
阅读次数:
229
1. Map相关参数 set?mapred.max.split.size?=?256000000?;?//最大分割
set?mapred.min.split.size=1?;?//最小分割
set?hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;?/...
分类:
其他好文 时间:
2015-06-29 15:04:36
阅读次数:
200
1 下载解压配置hadoophadoop-env.sh export JAVA_HOME=/opt/JDK/jdk1.8.0_45hdfs-site.xml dfs.data.dir /hadoop/data mapred-site.xml mapred.jo...
分类:
其他好文 时间:
2015-06-27 16:22:44
阅读次数:
90
整理下,基本分两个方式: 一、对于大量大文件(大于block块设置的大小) 增大minSize,即增大mapred.min.split.size的值,原因:splitsize=max(minisize,min(maxsize,blocksize)),blocksize一般不会做修改. ...
分类:
其他好文 时间:
2015-06-16 19:01:06
阅读次数:
158
Sqoop是什么? sqoop是一个用来将hadoop和rdbms(mysql、oracle、postgres)的数据进行相互迁移的工具;他可以将rdbms的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到rdbms中。Sqoop原理? sqoop是通过hadoop的mapred.....
分类:
其他好文 时间:
2015-06-14 13:47:56
阅读次数:
129