阿里大数据架构师必备技能，你“佩奇”了嘛？

时间：2019-05-28 12:21:43 阅读：128 评论：0 收藏：0 [点我收藏+]

标签：replicate 环境沟通能力教程 elastics 动态工程师 sql 随笔

这两天真的是被《啥是佩奇》这支广告片刷屏了。佩奇明明是个喜剧角色，却把所有人都给看哭了！

中间的剧情，小孙子一句：“想要佩奇”，结果爷爷就开始了满村子的寻找佩奇，到最后寻找到了小编认为是最好看的佩奇
技术图片

不知道大家看了之后是什么感觉，反正我看了之后的感觉是非常感动了。不过经过几天的发酵，“佩奇”这两个字似乎有了更多的含义了！各种”佩奇“齐出不穷，女人的“佩奇”是什么样的？程序员的“佩奇”是什么样的？

在这里还是要推荐下我自己建的大数据学习交流群:529867072，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。

今天在这里我就给大家分享一下，大数据工程师的“佩奇”是什么样的！

”佩奇“技能

1.编程能力

无论是Java还是Python，学习编程语言一定要先沉下心来专攻某一门，尤其是开放源代码工具，在任何公司都广泛运用。

比如对Java语言基础语法、OOP编程、多线程及网络编程、MySQL数据库、Maven项目管理等开发入门工具的学习，可以训练自己掌握大数据必备的基本编码能力，也为后续学习大数据分析或是推荐系统等高级的内容打下坚实基础。

2.Hadoop

Hadoop在大数据技术体系中的地位至关重要，Hadoop是大数据技术的基础，对Hadoop基础知识的掌握的扎实程度，会决定在大数据技术道路上走多远。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。下面是Hadoop的常用模块架构图：技术图片

3.Spark

它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

4.Storm

Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流，像Hadoop批量处理大数据一样，Storm可以实时处理数据。Storm简单，可以使用任何编程语言。

5.Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

6.Flink

Flink是一款分布式的计算引擎，它可以用来做批处理，即处理静态的数据集、历史的数据集;也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果;也可以用来做一些基于事件的应用，比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否正当。大数据学习交流群：529867072

7.Hive

Hive 由 Facebook 实现并开源

是基于 Hadoop 的一个数据仓库工具

可以将结构化的数据映射为一张数据库表

并提供 HQL(Hive SQL)查询功能

底层数据是存储在 HDFS 上

Hive的本质是将 SQL 语句转换为 MapReduce 任务运行

使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

8.ElacsticSearch

ES是一个基于Lucene的分布式全文搜索服务器，和SQL Server的全文索引（Fulltext Index）有点类似，都是基于分词和分段的全文搜索引擎，具有分词，同义词，词干查询的功能，但是ES天生具有分布式和实时的属性，本随笔演示在Windows环境中安装ElasticSearch，以及用于管理ElasticSearch的Head插件。

总结