标签:分布式集群 sso cluster rpc geek 串行化 oozie htm res
首先我们可以看看大数据岗位的能力要求
一 大数据工程师岗位要求
公司A:
公司B:
二 在面试岗位前,我们必然要经历岗位考核,而考核的内容主要以数据结构和算法为主。
基础算法学习网站如下:
https://leetcode.com
三. 接下来是技能要求,
1.首先是基础编程能力:
推荐看Oracle的Java tutorial
https://docs.oracle.com/javase/tutorial/index.html
2.熟悉Linux shell系统:
https://www.learnshell.org/en/Hello%2C_World%21
http://linuxcommand.org/lc3_lts0010.php
https://www.geeksforgeeks.org/introduction-linux-shell-shell-scripting/
3.掌握Mysql数据库的使用及其常用SQL命令以及了解非关系型数据库MongoDB的使用:
https://university.mongodb.com
4.Hadoop及其生态系统:
大数据学习基石Hadoop、数据串行化系统与技术、数据的统计分析、分布式集群、流行的队列、数据迁移、大数据平台分析
重点掌握基本模块例:HDFS、MapReduce、Yarn、Common
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
Hadoop家族其它组件举例:
Hadoop 生态系统
1) Hadoop:分布式存储、分布式计算、资源调度和任务管理、hdfs、mapreduce、yarn、common
2) Nutch:开源的搜索引擎
3) Hbase/Cassandra:基于google的 bigtable开源的列式存储的非关系型数据库
http://hbase.apache.org/book.html#arch.overview
4) Hive:基于SQL的分布式计算引擎
https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Pig:基于Pig Latin脚本的计算框架
http://pig.apache.org/docs/r0.15.0/start.html
http://pig.apache.org/docs/r0.15.0/basic.html
5) Thrift/Avro:RPC框架、用于网络通信
6) Lucene:索引检索工具包
7) BigTop:项目测试、打包、部署
8) Oozie/Azakban:大数据工作流框架
9) Chukwa/Scribe/Flume:数据收集框架
10) Whirr:部署为云服务的类库
11) Sqoop:数据迁移工具
12) Zookeeper:分布式协调服务框架
13)HAMA:图计算框架
14)Mahout:机器学习框架
5.服务器的基础配置知识(偏向运维)
6.数据结果的可视化
https://echarts.baidu.com/download-theme.html
https://plot.ly
四.学习大数据分析(硕士学习课程举例)
重点如下课程:
Data Analysis
Data Science Programming
Data Mining
Machine Learning
Parallel and Distrubuted Computing
Big Data Application
学习与应用网站:
https://www.kaggle.com/learn/overview
标签:分布式集群 sso cluster rpc geek 串行化 oozie htm res
原文地址:https://www.cnblogs.com/zhichun/p/11361145.html