标签:
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能;而Spark利用RDD技术,计算在内存中进行.
b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.
c. 再说说Spark API方面- Scala: Scalable Language, 据说是进行并行计算的最好的语言. 与Java相比,极大的减少代码量.
有了Hadoop MapReduce, 为什么还要Spark?
标签:
原文地址:http://www.cnblogs.com/silva/p/4520317.html