码迷,mamicode.com
首页 > 其他好文 > 详细

Spark教程(2)-Spark概述及相关组件

时间:2018-11-21 10:22:35      阅读:271      评论:0      收藏:0      [点我收藏+]

标签:streaming   line   基本功   first   交互式   OLE   解决方案   方案   恢复   


1.概述

Spark起源于加州大学伯克利分校RAD实验室,起初旨在解决MapReduce在迭代计算和交互计算中的效率低下问题.目前Spark已经发展成集离线计算,交互式计算,流计算,图计算,机器学习等模块于一体的通用大数据解决方案.


2.Spark组件

技术分享图片


  • Spark Core

Spark Core 实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统
交互等模块。
Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset,简
称 RDD)定义。


  • SparkSQL

SparkSQL是对计算任务的SQL化封装,类似于Hive.
支持多种数据源,如Hive,Json等.


  • Spark Streaming

Spark Streaming是Spark的流式计算组件.


  • MLlib
    机器学习组件,提供了常用的机器学习算法包.

  • GraphX
    图计算组件,提供的图数据库和常用的图算法包.

  • 调度器

支持三种调度器,独立调度器(Spark自带)YARN,Mesos.


3.第一个Spark小程序

启动HDFS,启动Spark

进入shell
bin/spark-shell
bin/pyspark(Python版)

scala> var lines = sc.textFile("/test/hello.txt")
lines: org.apache.spark.rdd.RDD[String] = /test/hello.txt MapPartitionsRDD[5] at textFile at <console>:24

scala> lines.count()
res3: Long = 3

scala> lines.first()
res4: String = hello Spark!

Spark教程(2)-Spark概述及相关组件

标签:streaming   line   基本功   first   交互式   OLE   解决方案   方案   恢复   

原文地址:https://www.cnblogs.com/guan-li/p/9993154.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!