标签:
1、spark是一个apache开源项目
2、spark可以提升程序运行速度,spark在100TB数据比赛中战胜hadoop,并且只使用了十分之一的机器。
3、spark提供了java,scala和python语言api支持
4、spark可以与hadoop生态系统和数据源很好的集成。
5、spark可以运行在yarn和mesos管理的集群上。
6、spark核心由spark sql、spark streaming、mllib、graphX组成。
7、spark core是基本引擎,用于大规模并行和分布式数据处理;负责“内存管理和故障恢复”,“在集群上安排、分布和监控作业”,“与存储系统进行交互”。
8、spark引入了弹性分布式数据集(RDD,resilient distributed dataset),它是一个不可变的、容错的、分布式的对象集合,我们可以操作这个集合。他在加载外部数据或者从驱动应用程序分发集合时创建。
9、RDD支持两种操作类型,转换操作(例:映射、过滤、联接、联合),它在一个RDD上执行操作,然后创建一个新的RDD来保存结果;行动操作(例:归并、计数、top),它在一个RDD上执行某种计算,然后反馈结果。
10、spark 中 转换是“懒惰”的,spark并不会立即计算出结果,spark只是记住当前需要做的操作,只有当行为被调用的时候spark才会真正的进行运算。例如,如果一个大文件需要通过各种转换操作,并且文件被传递给第一个行为,那么spark只会处理第一行内容并返回结果,而不会处理整个文件(// todo 编写代码验证)。spark可以将RDD之持久化或者缓存到内存中,spark就会在集群保留这些元素,便于下一次快速使用。
11、spark sql,提供sql或者hive来直接查询数据。spark sql起源于hive,用于spark上替代MR,现在直接集成到spark堆中了。
12、spark streaming支持实时处理流数据,接收消息队列数据,spark会将数据分成不同的批次,分批次的进行处理,类似流一样。
13、MLlib是一个机器学习库,提供了各种算法,提供 分类、回归、聚类、协同过滤等等。(// todo 不明觉厉)
14、GraphX是一个用来处理图的库,执行基于图的并行运算。(// todo 不明觉厉)
后续补充
15、RDD容错。每个RDD都会记录自身依赖的父RDD,一旦出现RDD出现分片丢失,可以通过计算迅速恢复。
RDD依赖分为宽依赖和窄以来,宽依赖:每个partition可以给多个RDD使用,由于多重依赖,只有等到所有节点的数据处理完毕才能进行下一步处理,为防止数据发生丢失或者损坏,需要将之前上一次节点的数据物化,用于恢复。窄依赖:每个分片只能给一个RDD使用,由于没有多重依赖,所以再一个节点上可以一次性将分片处理完,且一旦发生丢失或者损坏可以迅速从上一个RDD恢复。
16、spark中partition和hdfs的block的关系。
hdfs的block是分布式存储的最小单元,类似于盛放文件的盒子。
spark的partition是弹性分布式数据集 RDD的最小单元,RDD是由分布在各个节点上的partition组成的。
partition是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partition大小不一,数量不定,是根据程序类的算子和最初读入的数据分块数量决定的。因此称为弹性分布式数据集。
block位于存储空间、partition位于计算空间
block的大小是固定的、partition大小不固定
block有冗余、不会轻易丢失。partition 有冗余(设置storagelevel),如果丢失后可以通过重新计算获得。
直白讲述:”
”
17、spark缓存
useDisk(硬盘)、useMemory(内存)、deserialized(反序列化,用于网络传输对象)、replication(分本数量)
class storageLevel private(useDisk boolean,useMemory boolean,deserialized boolean,repliaction:int)
18、提交Job
spark-submit
sbt run
java -jar
参照:http://blog.jobbole.com/89446/
http://www.docin.com/p-1090058011.html
http://my.oschina.net/u/2306127/blog/470505#OSC_h1_1
关于partition和block的关系和区别
https://www.zhihu.com/question/37310539
标签:
原文地址:http://www.cnblogs.com/isenhome/p/5063657.html