奈学教育《大数据开发工程师》课程大纲

时间：2020-06-22 18:50:44 阅读：295 评论：0 收藏：0 [点我收藏+]

本课程针对企业不同数据规模技术方案进行讲解，紧贴企业热门需求，深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等；课程针对知识点进行企业级案例式教学，理论结合实战，从0到1构建大数据生态技术的方方面面，内容涵盖大数据平台、Spark、Flink、OLAP等核心技术；用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目，把大数据生态技术知识串连起来，让学员形成自己的技术栈，真正成为企业级的大数据开发工程师！

阶段一：小规模数据处理篇
第一单元	掌握Python基础语法	1. 集合类型 2. 条件，循环 3. 文件操作 4. 函数和函数式编程 5. 面向对象
第二单元	掌握NumPy进行数据分析	1. NumPy基本使用 2. Numpy进阶知识
第三单元	掌握Pandas进行数据分析	1. Pandas基础知识 2. Series数据结构 3. DataFrame数据结构 4. 综合案例演示
阶段二：中等规模数据处理篇
第四单元	掌握Elastichsearch核心设计	1. Elastichsearch总体架构设计 2. Elastichsearch核心流程分析 3. Elastichsearch核心概念详解
第五单元	掌握Elastichsearch API使用与调优	1. Elastichsearch语法详解 2. Elastichsearch容错原理剖析 3. Elastichsearch性能调优
第六单元	掌握ELK生态针对中等数据规模的方案实践	1. Logstash原理剖析与实战 2. Kibana原理剖析与实战 3. 企业级海量日志分析系统实战
阶段三：大数据基础平台篇
第七单元	掌握ZooKeeper核心设计与应用	1. ZooKeeper架构设计原理 2. ZooKeeper核心读写流程剖析 3. ZooKeeper企业应用场景实战
第八单元	掌握HDFS核心架构原理	1. 大数据基础知识 2. HDFS架构设计原理
第九单元	掌握HDFS企业级架构方案设计	1. HDFS高可用架构设计 2. HDFS联邦架构设计 3. HDFS企业级集群部署
第十单元	掌握MapReduce分布式计算模型	1. MapReduce核心原理剖析 2. MapReduce Shuffle机制深度剖析 3. MapReduce案例实操
第十一单元	掌握YARN任务调度模型	1. YARN架构设计原理 2. YARN核心运行流程
阶段四：大数据存储篇
第十二单元	掌握Hive核心架构设计	1. Hive生态体系 2. Hive集群安装 3. HQL语法精讲
第十三单元	掌握Hive企业实操	1. Hive函数精讲 2. Hive执行原理深度剖析
第十四单元	掌握Hive企业级解决方案	1. Hive企业级调优 2. Hive企业高频业务场景剖
第十五单元	掌握HBase核心架构原理	1. HBase架构设计原理剖析 2. HBase数据模型 3. HBase数据模型 4. HBase读写原理剖析 5. HBase企业级集群分布式部署
第十六单元	握HBase企业设计方案	1. HBase表设计 2. HBase RowKey设计 3. HBase二级索引方案实践
第十七单元	掌握Kafka核心架构设计	1. Kafka架构设计原理 2. Kafka核心概念深度剖析
第十八单元	掌握Kafka架构设计优势与运维	1. Kafka架构设计优势 2. Kafka集群部署与运维
第十九单元	掌握Kafka客户端原理与性能调优	1. Kafka生产者原理深度剖析 2. Kafka消费者原理 3. Kafka性能调优
阶段五：大数据采集篇
第二十单元	掌握Flume/Sqoop日志采集系统实践	1. Sqoop核心原理剖析 2. Sqoop企业案例实操 3. Flume核心原理剖析 4. Flume企业案例实操
阶段六：任务调度篇
第二十一单元	掌握Azkaban任务调度实践	1. Azkanban架构原理 2. Azkanban企业案例实操
阶段七：大数据处理篇
第二十二单元	掌握SparkCore核心原理（上）	1. Spark任务运行流程 2. RDD核心原理剖析 3. Spark任务运行模式 4. Spark核心算子案例实践 5. Spark企业级集群分布式部署
第二十三单元	掌握SparkCore核心原理（下）	1. 广播变量与累加变量原理剖析 2. 窄依赖和宽依赖原理剖析 3. Stage划分算法 4. Spark内存模型
第二十四单元	掌握SparkCore企业级调优	1. SparkCore企业级调优实践
第二十五单元	掌握SparkSQL核心原理与实践	1. SparkSQL的前世今生 2. DataFrame核心原理剖析 3. DataSet核心原理剖析 4. UDF/UDAF案例实践
第二十六单元	掌握SparkStreaming核心原理	1. SparkStreaming任务运行流程 2. DStream核心抽象原理剖析
第二十七单元	掌握SparkStreaming核心API企业实践	1. SparkStreaming高阶函数实操 2. SparkStreaming容错分析
第二十八单元	掌握SparkStreaming企业应用	1. SparkStreaming企业级数据令零丢失方案设计 2. SparkStreaming企业级监控告警方案设计
第二十九单元	掌握Flink任务调度原理与资源分配	1. Streaming运行原理 2. 数据传输策略 3. Flink并行度&Task原理剖析 4. Flink资源调度原理剖析 5. Flink集群分布式部署
第三十单元	掌握Flink-Streaming State核心设计与实践	1. State类型深度剖析 2. State核心原理深度剖析 3. Checkpoint & Savepoint企业实践
第三十一单元	掌握Flink-Streaming WasterMark核心设计与实践	1. Time时间类型详解 2. 有序事件与无序事件 3. WaterMark原理剖析与实践
第三十二单元	掌握Flink-Streaming Window核心设计与实践	1. Window原理深度剖析 2. Window触发原理深度剖析与实践
第三十三单元	掌握Flink-Streaming企业应用	1. 综合案例实践
第三十四单元	掌握Flink SQL企业实践	1. 1. Flink SQL编程详解 2. Flink SQL动态表与连续表 3. 表流转模式剖析 4. Flink SQL案例实践
第三十五单元	掌握Druid架构原理与实践	1. Druid架构设计原理 2. Druid案例实践
第三十六单元	掌握Kylin架构原理与实践	1. Kylin架构设计原理 2. Kylin案例实践
第三十七单元	掌握ClickHouse架构原理与实践	1. ClickHouse架构设计原理 2. ClickHouse案例实践
赠送知识
第一单元	企业级大数据集群部署和运维篇	1.Ambari功能概述 2.Ambari架构设计 3.Ambari基础环境准备 4.企业级集群部署安装 5.企业级集群管理和实践 6.ClouderaManager产生背景 7.ClouderaManager架构设计 8.企业级集群规划 9.ClouderaManager基础环境准备 10.企业级ClouderaManager集群部署安装 11.企业级CDH集群运维管理
第二单元	Java知识准备	1.Java基础知识 2.循环语句 3.面向对象 4.Java集合 5.Java多线程 6.Java IO详解 7.Java NIO详解 8.综合案例实践
第三单元	Scala知识准备	2.变量 3.数据类型 4.方法和函数 5.数组 6.类的定义 7.构造函数 8.Scala对象 9.Trait 10.Scala模式匹配 11.隐式转换 12.上界和下界 13.Actor 14.综合案例实践
第四单元	Linux/Shell知识准备	1.Linux操作系统介绍 2.Vmware安装和介绍 3.Linux命令分类 4.Linux命令详解 5.vi编辑器详解 6.用户和组 7.权限管理 8.crontab管理 9.网络 10文本处理 11.SSH协议 12.Shell编程