最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:Hive是什么 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 二:ma ...
分类:
其他好文 时间:
2019-09-21 23:44:00
阅读次数:
135
Hadoop生态圈 摘要:一:基本构成:HDFS(Hadoop分布式文件系统);Mapreduce(分布式计算框架);HBASE(分布式列存数据库); Zookeeper(分布式协作服务);HIVE(数据仓库);Pig(ad-hoc脚本)等。 二:详细了解一下其特性: Hadoop是一个由Apach ...
分类:
其他好文 时间:
2019-09-21 23:05:58
阅读次数:
119
hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模 ...
分类:
其他好文 时间:
2019-09-21 18:47:50
阅读次数:
87
MapReduce计算流程 MapReduce计算流程 1 首先是通过程序员所编写的MR程序通过命令行本地提交或者IDE远程提交 2 一个MR程序就是一个Job,Job信息会给Resourcemanger,向Resourcemanger注册信息 3 在注册通过后,Job会拷贝相关的资源信息(从HDF ...
分类:
其他好文 时间:
2019-09-21 15:26:11
阅读次数:
96
来源:大数据算法 王宏志 一、概述 大数据定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。 大数据特点:4V 大数据算法可以不是: 精确算法 内存算法 串行算法 仅在电子计算机上运行的算法 大数据算法不仅是: 云计算 MapReduce 大数据分析和挖掘的算 ...
分类:
编程语言 时间:
2019-09-20 12:45:12
阅读次数:
229
hadoop 分布式计算框架。 common // hdfs //存储 mapreduce //MR,编程模型. yarn //资源调度. 集群部署 1.standard alone/local nothing. 2.伪分布式 一台机器. NN //目录 DN //DataNode,block(12 ...
分类:
其他好文 时间:
2019-09-16 23:50:45
阅读次数:
134
前言:中秋节有事外加休息了一天,今天晚上重新拾起Hadoop,但感觉自己有点烦躁,不知后续怎么选择学习Hadoop的方法。 干脆打开电脑,决定: 1、先将Hadoop的MapReduce和Yarn基本原理打扎实了再说,网上说的边画图边记得效果好点; 2、有时间就多看看Java和Python的基础知识 ...
分类:
其他好文 时间:
2019-09-16 09:47:09
阅读次数:
137
简单概括:Hadoop是由Apache组织使用Java语言开发的一款应对大数据存储和计算的分布式开源框架。 Hadoop的起源 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制 ...
分类:
其他好文 时间:
2019-09-15 10:32:13
阅读次数:
141
项目简介 这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。 SparkHBase HiveFlinkStormHadoopHBaseSpark Flink HBaseStorm HBaseHadoopHiveFlink HBaseFlinkHiveStorm HiveFlin ...
分类:
其他好文 时间:
2019-09-14 23:07:58
阅读次数:
208
Mapper: import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Te ...
分类:
其他好文 时间:
2019-09-14 22:57:25
阅读次数:
158