码迷,mamicode.com
首页 > 其他好文 > 详细

大数据学习计划

时间:2019-08-16 00:33:18      阅读:155      评论:0      收藏:0      [点我收藏+]

标签:分布式集群   sso   cluster   rpc   geek   串行化   oozie   htm   res   

首先我们可以看看大数据岗位的能力要求

 

一 大数据工程师岗位要求

 公司A:

技术图片

 

 

 

公司B:

 

技术图片

 

 

二 在面试岗位前,我们必然要经历岗位考核,而考核的内容主要以数据结构和算法为主。

基础算法学习网站如下:

https://leetcode.com

https://visualgo.net/en

 

三. 接下来是技能要求,

 

1.首先是基础编程能力:

推荐看Oracle的Java tutorial

https://docs.oracle.com/javase/tutorial/index.html

 

2.熟悉Linux shell系统:

https://www.learnshell.org/en/Hello%2C_World%21

http://linuxcommand.org/lc3_lts0010.php

https://www.geeksforgeeks.org/introduction-linux-shell-shell-scripting/

 

3.掌握Mysql数据库的使用及其常用SQL命令以及了解非关系型数据库MongoDB的使用:

https://www.w3schools.com/sql

https://www.codecademy.com/courses/learn-sql/lessons/manipulation/exercises/sql?action=resume_content_item

https://university.mongodb.com

 

4.Hadoop及其生态系统:

大数据学习基石Hadoop、数据串行化系统与技术、数据的统计分析、分布式集群、流行的队列、数据迁移、大数据平台分析

重点掌握基本模块例:HDFS、MapReduce、Yarn、Common

http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

Hadoop家族其它组件举例:

Hadoop 生态系统

1)  Hadoop:分布式存储、分布式计算、资源调度和任务管理、hdfs、mapreduce、yarn、common

2) Nutch:开源的搜索引擎

3) Hbase/Cassandra:基于google的 bigtable开源的列式存储的非关系型数据库

http://hbase.apache.org/book.html#arch.overview

4) Hive:基于SQL的分布式计算引擎

https://cwiki.apache.org/confluence/display/Hive/LanguageManual

http://hive.apache.org/

  Pig:基于Pig Latin脚本的计算框架

  

http://pig.apache.org/docs/r0.15.0/start.html

http://pig.apache.org/docs/r0.15.0/basic.html

5) Thrift/Avro:RPC框架、用于网络通信

6) Lucene:索引检索工具包

7) BigTop:项目测试、打包、部署

8) Oozie/Azakban:大数据工作流框架

9) Chukwa/Scribe/Flume:数据收集框架

10) Whirr:部署为云服务的类库

11) Sqoop:数据迁移工具

12) Zookeeper:分布式协调服务框架

13)HAMA:图计算框架

14)Mahout:机器学习框架

 

 

5.服务器的基础配置知识(偏向运维)

http://nginx.org/en/

 

6.数据结果的可视化

https://echarts.baidu.com/download-theme.html

https://plot.ly

 

四.学习大数据分析(硕士学习课程举例)

重点如下课程:

Data Analysis

Data Science Programming

Data Mining

Machine Learning

Parallel and Distrubuted Computing

Big Data Application 

 

学习与应用网站:

https://www.kaggle.com/learn/overview

 

大数据学习计划

标签:分布式集群   sso   cluster   rpc   geek   串行化   oozie   htm   res   

原文地址:https://www.cnblogs.com/zhichun/p/11361145.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!