[Toc] 接下来以一个简单的WordCount为例子,介绍Java版本的MapReduce的程序编写。 mapreduce程序主要分三部分:1.map部分,2.reduce部分,3.提交部分。 1. 准备部分 hadoop中,针对数据类型自成一体,与java的数据类型对应。封装在hadoop.io ...
分类:
其他好文 时间:
2019-10-15 20:43:33
阅读次数:
91
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau ...
分类:
其他好文 时间:
2019-10-14 12:15:22
阅读次数:
95
1. Apache Oozie Oozie是一个工作流调度系统。Oozie是运行于Java Servlet容器上的一个java web应用。Oozie是按照有向无权图(DAG)调度方式,使用xml文件配置工作流。最初是由Cloudear公司开发,后来贡献给Apache a. apache Oozie ...
分类:
Web程序 时间:
2019-10-13 10:50:32
阅读次数:
111
hive与hbase的联系与区别:共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。 他们的底层是要通过mapreduce分布式计算的,hbase、hive、pig底层都是这样的。但整体来说hadoop还是比较快的,因为它是进行海量数据存储和分布式计算,这 ...
分类:
其他好文 时间:
2019-10-10 22:26:21
阅读次数:
132
MapReduce详细工作流程之Map阶段 如上图所示 1. 首先有一个200M的待处理文件 2. 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 3. 提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要 ...
分类:
其他好文 时间:
2019-10-08 21:48:32
阅读次数:
129
hive介绍 什么是hive? hive:由Facebook开源用于解决 的数据统计 hive是基于hadoop的一个 ,可以将 ,并提供 查询功能。本质就是 我们使用MapReduce开发会很麻烦,但是程序员很熟悉sql,于是hive就出现了,可以让我们像写sql一样来编写MapReduce程序, ...
分类:
数据库 时间:
2019-10-07 23:15:16
阅读次数:
130
PS:实操部分就省略了哈,准备最近好好看下理论这块,其实我是比较懒得哈!!! <?>MapReduce的概述 MapReduce是一种计算模型,进行大数据量的离线计算。MapReduce实现了Map和Reduce两个功能:其中Map是滴数据集上的独立元素进行指定的操作,生成键——值对形式中间结果。其 ...
分类:
其他好文 时间:
2019-10-07 00:50:10
阅读次数:
157
大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: ...
分类:
其他好文 时间:
2019-10-06 16:48:10
阅读次数:
114
hadoop是什么? hadoop是一个由Apache基金会所开发的分布式系统基础架构,hdfs分布式文件存储、MapReduce并行计算。主要是用来解决海量数据的存储和海量数据的分析计算问题,这是狭义上的hadoop。广义上来讲,hadoop通常指的是一个更广泛的概念 hadoop生态圈 hado ...
分类:
其他好文 时间:
2019-10-05 20:12:34
阅读次数:
220
1、在MySQL中创建表student 2、在MySQL中创建表student4 3、在hive中创建表student3 hive (default)> create table student3(id int,name string,sex string) > row format delimit ...
分类:
其他好文 时间:
2019-10-05 18:40:42
阅读次数:
108