一天征服Spark！

时间：2014-12-24 23:59:13 阅读：358 评论：0 收藏：0 [点我收藏+]

标签：

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题，更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作，这是当今任何大数据平台都无可匹敌的优势。

在实际的生产环境中世界上已经出现很多一千个以上节点的Spark集群，以eBay为例，eBay的Spark集群节点已经超过2000个，Yahoo！等公司也在大规模的使用Spark，国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用Spark。2014 Spark Summit上的信息，Spark已经获得世界20家顶级公司的支持，这些公司中包括Intel、IBM等，同时更重要的是包括了最大的四个Hadoop发行商都提供了对非常强有力的支持Spark的支持。

与Spark火爆程度形成鲜明对比的是Spark人才的严重稀缺，这一情况在中国尤其严重，这种人才的稀缺一方面是由于Spark技术在2013、2014年才被大陆这边的IT实际接触，另一方面是由于匮乏Spark相关的足够出色的中文资料和系统化的培训。为此，我们在2014 Spark亚太峰会上推出“一天征服Spark！”课程，课程内容涵盖了Spark企业级开发的所有精髓，内容循序渐进而深入浅出，适合所有对大数据感兴趣的朋友学习。

课程介绍

本课程是世界上第一Spark企业级最佳实践课程，课程包含：

Spark的架构设计；

Spark编程模型；

Spark内核框架源码剖析；

Spark的机器学习；

Spark的图计算GraphX；

Spark SQL；

Spark实时流处理；

Spark on Yarn；

JobServer；

SparkR

Tachyon

最后以一个商业级别的Spark案例为基础，实战展示商业级别Spark项目的架构设计、实现和优化；

培训对象

1，云计算大数据从业者；

2， Hadoop使用者；

3，系统架构师、系统分析师、高级程序员、资深开发人员；

4，牵涉到大数据处理的数据中心运行、规划、设计负责人；

5，政府机关，金融保险、移动和互联网等大数据来源单位的负责人；

6，高校、科研院所涉及到大数据与分布式数据处理的项目负责人；

7，数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员；

学员基础

对大数据感兴趣

王家林老师

中国目前唯一的移动互联网和云计算大数据集大成者；

云计算大数据Spark亚太研究院院长和首席专家；

Spark亚太研究院院长和首席专家，Spark源码级专家，对Spark潜心研究（2012年1月起）2年多后，在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上，编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程（涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析）。Spark源码研究狂热爱好者，醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家，曾负责某知名公司的类Hadoop框架开发工作，专注于Hadoop一站式解决方案的提供，同时也是云计算分布式大数据处理的最早实践者之一，Hadoop的狂热爱好者，不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储，现在正负责Hadoop在搜索引擎中的研发等，著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等；

Android架构师、高级工程师、咨询顾问、培训专家；

通晓Android、HTML5、Hadoop，迷恋英语播音和健美；

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案；

国内最早（2007年）从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者（2009年）之一,成功为多个机构实现多款自定义HTML5浏览器，参与某知名的HTML5浏览器研发；

超过10本的IT畅销书作者；

联系邮箱：18610086859@126.com
　　联系电话：18610086859

培训内容

第一天

第1堂课：Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

第2堂课：Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课：深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课：深入实战RDD

4.1 DAG

4.2 深入实战各种Scala RDD Function

4.3 Spark Java RDD Function

4.4 RDD的优化问题

第5堂课：Spark的机器学习

5.1 LinearRegression

5.2 K-Means

5.3 Collaborative Filtering

第6堂课：Spark的图计算GraphX

6.1 Table Operators

6.2 Graph Operators

6.3 GraphX

第7堂课：Spark SQL

7.1 Parquet支持

7.2 DSL

7.3 SQL on RDD

第8堂课：Spark实时流处理

8.1 DStream

8.2 transformation

8.3 checkpoint

8.4 性能优化

第9堂课：Spark on Yarn

9.1 Spark on Yarn的架构原理

9.2 Spark on Yarn的最佳实践

第10堂课：JobServer

10.1 JobServer的架构设计

10.2 JobServer提供的接口

10.3 JobServer最佳实践

第11堂课：SparkR

11.1 SparkR的原理与实现

11.2 SparkR动手实践

第12堂课：Tachyon

12.1 Tachyon原理与架构

12.2 Tachyon动手实践

第13堂课：Spark多语言编程

13.1 使用Scala编写Spark程序

13.2使用Python编写Spark程序

13.3使用Java编写Spark程序

第14堂课：Spark项目案例实战

14.1 Spark项目的最佳架构模式

14.2 案例的介绍和技术实现

一天征服Spark！

标签：

原文地址：http://www.cnblogs.com/spark-hadoop/p/4183581.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行