大数据Spark企业级项目实战(实战sparksql和kafka的流数据处理应用)下载

时间：2016-07-08 13:36:57 阅读：171 评论：0 收藏：0 [点我收藏+]

标签：

链接:http://pan.baidu.com/s/1dFqbD4l 密码:treq

1.课程研发环境
　　项目源代码以spark1.5.2，jdk8,scala2.10.5为基准。
　　开发工具:SCALA IDE eclipse;
　　其他工具:shell脚本
2.内容简介
　　本教程从最基础的Spark介绍开始，介绍Spark的各种部署模式以及动手进行搭建，然后逐步介绍其中RDD的计算模型，创建和常用的操作，以及其中一些分布式计算，RDD持久化，容错，shuffle机制，共享变量等内容。
　　而后在RDD的基础上，讲解SparkSQL的子框架，介绍dataframe，使用场景，创建方法，对parquet等文件格式和不同类型的数据源的支持，对hive的兼容和整合，以及对传统数据库的JDBC的支持，和thriftserver的部署等。再配合一些实战动手的实验来加深对dataframe的理解和应用。
　　然后，讲解sparkstreaming的子框架，介绍DSTREAM的概念，使用场景，数据源，操作，容错，性能调优，还有与kafka的集成。
　　最后以2个项目来实际带学习者到开发环境中去动手开发，调试，一些基于SparkSQL，SparkStreaming，kafka的实战项目，加深大家对Spark应用开发的理解。其中简化了企业里的实际业务逻辑，加强对错误调试的分析和思路上的启发，使得学习者更容易掌握Spark的开发技巧。

标签：

原文地址：http://www.cnblogs.com/bfw2014/p/5652893.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行