Spark与Hadoop的比较

时间：2020-01-21 19:49:30 阅读：71 评论：0 收藏：0 [点我收藏+]

标签：算法 app span 大数框架 rdd pil 分布式输出

Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既可以做离线批处理，也可以做实时处理（SparkStreaming）

　　①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体

　　②Spark实现了一种分布式的内存抽象，称为弹性分布式数据集；RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，极大提升了查询速度。

一个Hadoop的Job通常经过以下几个步骤：

　　①从HDFS中读取输入数据

　　②在Map阶段使用用户定义的mapper function，然后将结果spill到磁盘

　　③在Reduce阶段从各个处于Map阶段的机器读取Map计算的中间结果，使用用户自定义的reduce function，通常最后把结果写回HDFS

　　Hadoop的问题在于，一个Hadoop Job会进行多次磁盘读写，比如写入机器本地磁盘，或是写入分布式文件系统中（这个过程包含磁盘的读写以及网络传输）。考虑到磁盘读取比内存读取慢了几个数量级，所以像Hadoop这样高度依赖磁盘读写的架构就一定会有性能瓶颈；而且有些场景比如一些迭代性质的算法（逻辑回归）会重复利用某些Job的结果，导致触发重新计算带来大量的磁盘I/O。

Spark没有像Hadoop那样使用磁盘读写，而转用性能高得多的内存存储输入数据、处理中间结果和存储中间结果。在大数据的场景中，很多计算都有循环往复的特点，像Spark这样允许在内存中缓存写入输出，上一个Job的结果马上被下一个使用，性能自然比Hadoop Map Reduce好的多。

Spark与Hadoop的比较

标签：算法 app span 大数框架 rdd pil 分布式输出

原文地址：https://www.cnblogs.com/xuange1/p/12222742.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行