标签:
spark与hadoop对比
什么是Spark
Spark与Hadoop对比
map
, filter
, flatMap
, sample
, groupByKey
, reduceByKey
, union
, join
, cogroup
, mapValues
, sort
,partionBy
等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count
, collect
, reduce
, lookup
, save
等多种actions操作。
我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。
两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。
Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。“这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能,”Borne指出。
ref:http://tech.uc.cn/?p=2116
http://techgogogo.com/2015/12/five-things-you-need-to-know-about-hadoop-v-apache-spark/
标签:
原文地址:http://www.cnblogs.com/jeakeven/p/5354764.html