大数据之二：Hadoop与Spark辨析

时间：2016-02-29 19:45:17 阅读：131 评论：0 收藏：0 [点我收藏+]

标签：

转载自知乎：https://www.zhihu.com/question/26568496

1） MapReduce:是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行

处理，非常适合数据密集型计算。

2） Spark:MapReduce计算框架不适合迭代计算和交互式计算，MapReduce是一种磁盘

计算框架，而Spark则是一种内存计算框架，它将数据尽可能放到内存中以提高迭代

应用和交互式应用的计算效率。

3） Storm:MapReduce也不适合进行流式计算、实时分析，比如广告点击计算等，而

Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。

4）Tez: 运行在YARN之上支持DAG作业的计算框架，对MapReduce数据处理的归纳。它

把Map/Reduce过程拆分成若干个子过程，同时可以把多个Map/Reduce任务组合成一个

较大的DAG任务，减少了Map/Reduce之间的文件存储。同时合理组合其子过程，也可

以减少任务的运行时间。

标签：

原文地址：http://www.cnblogs.com/trading4living/p/tech.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行