对于hadoop,我也处于了解学习中,参考大量资料,现在同大家分享下学习内容。
Hadoop 是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper
等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。
HDFS 是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞
吐量的数据访问,适合存...
分类:
其他好文 时间:
2015-05-31 09:19:53
阅读次数:
129
一:起因
(0)Python的基本语法,对于一个学过其他语言的人来说,比较容易;但是要是熟练的应用 和 掌握Python的进阶语法还是有一段路要走的。
(1)With语句代替try……finally语句;yield语法之生成器generator,序列生成器;函数式编程(Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR)
二:With基本语法
(1...
分类:
编程语言 时间:
2015-05-29 18:16:19
阅读次数:
155
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma...
分类:
其他好文 时间:
2015-05-28 19:47:59
阅读次数:
433
概述
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用distcp操作提供指南并阐述它的工作模型。
基本使用方...
分类:
其他好文 时间:
2015-05-20 14:48:33
阅读次数:
132
(1)Apache Oozie是什么?
Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。
Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce...
分类:
Web程序 时间:
2015-05-19 16:39:04
阅读次数:
140
Python内置了一些非常有趣但非常有用的函数,充分体现了Python的语言魅力![1] filter(function, sequence)对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决于sequence的类型)返回:>>> def f(x): return x % 2 != 0 and x % 3...
分类:
编程语言 时间:
2015-05-15 12:09:36
阅读次数:
146
1.Map-Reduce编程模型以气象数据分析为例。数据中每一行就是一个时间点采集的温度信息,现在要分析一年中的最高温度。Mapper思想:Map-reduce的思想就是“分而治之”Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行“简单的任务”有几个含义:1数据或计算规模..
分类:
其他好文 时间:
2015-05-14 06:23:55
阅读次数:
198
1.Map-Reduce编程模型以气象数据分析为例。数据中每一行就是一个时间点采集的温度信息,现在要分析一年中的最高温度。Mapper思想:
分类:
其他好文 时间:
2015-05-14 06:19:39
阅读次数:
121
问题导读:1.你认为什么图形可以显示hadoop与storm的区别?(电梯)2.本文是如何形象讲解hadoop与storm的?(离线批量处理、实时流式处理)3.hadoop map/reduce对应storm那两个概念?(spout/bolt)4.storm流由谁来组成?(Tuples)5.tupl...
分类:
其他好文 时间:
2015-05-12 22:38:16
阅读次数:
158
spark是什么?
spark开源的类Hadoop MapReduce的通用的并行计算框架
spark基于map reduce算法实现的分布式计算
拥有Hadoop MapReduce所具有的优点
但不同于MapReduce的是Job中间输出和结果可以保存在内存中
从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:
其他好文 时间:
2015-05-11 21:57:34
阅读次数:
206