问题导读:1.你认为什么图形可以显示hadoop与storm的区别?(电梯)2.本文是如何形象讲解hadoop与storm的?(离线批量处理、实时流式处理)3.hadoop map/reduce对应storm那两个概念?(spout/bolt)4.storm流由谁来组成?(Tuples)5.tupl...
分类:
其他好文 时间:
2015-05-12 22:38:16
阅读次数:
158
spark是什么?
spark开源的类Hadoop MapReduce的通用的并行计算框架
spark基于map reduce算法实现的分布式计算
拥有Hadoop MapReduce所具有的优点
但不同于MapReduce的是Job中间输出和结果可以保存在内存中
从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:
其他好文 时间:
2015-05-11 21:57:34
阅读次数:
206
一篇很好的关于map/reduce的示范文章。看了这个,你就会理解prototype.js中Enumerable的精髓。通过它,你可以写出很多非常奇特非常美妙的代码。短短几行,功能可不简单哦~例如Scriptaculous中,一开篇就应用了一个findAll,两个each。8行代码,其实只是一句而已...
分类:
编程语言 时间:
2015-05-11 12:32:43
阅读次数:
161
dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),mapred.map.tasks.speculative.execution=truemapred.reduce.tasks.speculati...
分类:
其他好文 时间:
2015-05-11 12:20:01
阅读次数:
186
1、启动hadoop工程 2、eclipse导入插件 将hadoop-eclipse-plugin-2.6.0.jar插件导入eclipse中,重启eclipse 3、在Map/Reduce的窗口下建立连接(单机版) 4、创建工程,导入jar,配置文件 提示:工程要用到hadoop的...
分类:
其他好文 时间:
2015-05-10 22:35:25
阅读次数:
189
MapReduce中的Shuffle过程分为Map端和Reduce端两个过程。...
分类:
其他好文 时间:
2015-05-10 17:24:26
阅读次数:
130
Hadoop家族项目图谱各子项目介绍(1)PigHadoop客户端,解决非Java程序员使用Hadoop难题使用类似于SQL的面向数据流的语言PigLatinPigLatin可以完成排序,过滤,求和,聚组,关联等操作,可以支持自定义函数Pig自动把PigLatin映射为Map-Reduce作业上传到集群运行,减少用户编写J..
分类:
其他好文 时间:
2015-05-09 13:33:33
阅读次数:
112
# -*- coding: utf-8 -*- #把函数作为参数传入,这样的函数称为高阶函数,函数式编程就是指这种高度抽象的编程范式 #python内建map, reduce函数的用法 map(f, [x1, x2, x3, x4]) = [f(x1), f(x2), f(x3),...
分类:
编程语言 时间:
2015-05-09 11:29:18
阅读次数:
105
背景 当下很多公司都依赖于数据分析来提升产品质量。各种各样的数据库构架(比如并行数据库)正应对了这样的需求,但其缺点是技术人员必须依赖SQL这样远不如其他编程语言方便的语言来处理数据。所以很多人都选择了MapReduce,因为这种模式下只需要设计Map和Reduce两个方程就够了,但是难以重复使用,维护,和优化也是这种模式的缺陷。
在这样的情况下,兼顾两者优点的Pig Latin应运而生。P...
分类:
其他好文 时间:
2015-05-09 10:17:52
阅读次数:
5156
当我们将作业提交到hadoop 的集群上之后,我们会发现一个问题就是无法通过web查看job运行情况,比如启动了多少个map任务,启动多少个reduce任务啊,分配多少个conbiner等等。这些信息都是作业在运行是可以查看的。而我的想要的就是能够通过远程的web可以查看到作业job的运行情况,.....
分类:
Web程序 时间:
2015-05-07 21:49:57
阅读次数:
164