码迷,mamicode.com
首页 > 其他好文 > 详细

Spark从入门到精通(一)

时间:2018-12-01 00:16:11      阅读:204      评论:0      收藏:0      [点我收藏+]

标签:pre   strong   hbase   src   二次   shu   ase   rdd   流式   

什么是Spark

  1. 大数据计算框架
  2. 离线批处理
  3. 大数据体系架构图(Spark)
    技术分享图片
  4. Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习,Spark GraphX用于图计算
  5. Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive、HBase)等,,以及资源调度(Yarn)
  6. Spark+hadoop的组合是大数据领域最热门的组合,也是最有前景的组合
  7. Spark与MapReduce计算过程,Spark基于内存进行计算,所以速度更快
    技术分享图片

  8. Spark整体架构图
    技术分享图片

Spark的特点

  1. 速度快:基于内存进行计算(当然也有部分计算基于磁盘,比如shuffle)
  2. 容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更加易于上手开发,实现各种复杂功能,比如二次排序,topn等复杂操作时,更加便捷
  3. 超强的通用性:Spark提供了多种计算组件
  4. 集成Hadoop:Spark与Hadoop进行了高度的继承,完成double win
  5. 极高的活跃度

待续...

Spark从入门到精通(一)

标签:pre   strong   hbase   src   二次   shu   ase   rdd   流式   

原文地址:https://www.cnblogs.com/sky-chen/p/10046888.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!