标签:
Spark背景:在Spark出现前,要在一个平台内同时完成批处理、机器学习、流失计算、图计算、SQL查询等各种大数据分析人物,就不得不与多种独立的系统打交道,这需要系统间进行代价较大的数据转储。Spark一开始就瞄准了性能,实现了在内存中计算。
1.Spark为什么这么火?采用的编程语言有什么特点?
Spark是基于内存的迭代计算框架,适用于需要多种操作特定数据集的应用场合,如pageRank、K-means等算就非常适合内存迭代计算,Spark整个生态体系正逐渐完善。Graphx、SparkSQL、SparkStreaming、MLlib,等到Spark有了自己的数据仓库后,就能完全与Hadoop生态体系相媲美。
Scala采用函数式编程语言,面此对象、函数式、高并发模型。其中有些概念不一样,如隐式转换、模式匹配、伴生类等。简洁强大
2.Spark能够成为Hadoop的替代者?各有什么特点?
两个侧重点不一样,Spark更适合于迭代运算比较多的ML和DM运算,Spark的RDD可以cache到内存中,那么每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了大量的磁盘IO操作。Hadoop虽然耗时,但在OLAP等大规模数据的应用场景还是很受欢迎的。目前Hadoop涵盖了从数据收集、分布式存储、分布式计算等各个领域,所以在各领域中各有优势
3.淘宝为什么会选择Spark计算框架呢?
这主要基于淘宝业务的应用场景,其涉及了大规模的数据处理与分析。其主要是应用Spark的Graphx图计算,以便进行用户图计算;基于最大连通图的社区发现,基于三角形计数的关系衡量,基于随机游走的用户属性传播等。
标签:
原文地址:http://www.cnblogs.com/kxdblog/p/4784085.html