实用干货！大数据入门的常用技术栈全在这里了

简介：大数据自 2009 年走向人们的视野，亦如所有新技术的发展，经历了一波炒作后，由风口回归理性发展。我们可以看到，随着 IOT 技术的发展和成熟，以及 5G 业务的全面铺开，数据规模还将持续增长。新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项基础技术，应用在各个角落。

转自： Cassandra技术社区
原文链接：https://mp.weixin.qq.com/s/Wv_DTdqLp7ExENNZefx4SQ

大数据自 2009 年走向人们的视野，亦如所有新技术的发展，经历了一波炒作后，由风口回归理性发展。我们可以看到，随着 IOT 技术的发展和成熟，以及 5G 业务的全面铺开，数据规模还将持续增长。新晋技术风口 AI、区块链、RPA 的发展也都离不开大数据技术。大数据技术将作为一项基础技术，应用在各个角落。

同时，大数据技术也由解决数据规模问题，发展到如何更高效地消费大数据，数据的实时性、云上迁移等成为大数据圈的新挑战。我们挑选了一些能应对这些新挑战的有代表性的技术栈，绘制了如下大数据圈生态图，并在下文对主流的技术栈进行了介绍：

技术图片

技术图片
OLAP 分析引擎：Apache Kylin™
Apache Kylin™ 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，与多种数据可视化工具（如 Tableau，Power BI 等）的整合能力。Apache Kylin™ 已被eBay、腾讯、美团点评、滴滴等全球上千家企业采用。
Apache Kylin™ 仅需三步，即可实现超大数据集上的亚秒级查询：
1.定义数据集上的一个星形或雪花形模型
2.在定义的数据表上构建 Cube
3.使用标准 SQL 通过 ODBC、JDBC 或 RESTFUL API 进行查询

技术图片
新一代大数据计算引擎：Apache Flink
Apache Flink 能够以高吞吐低延时的优异实时计算能力帮助企业和开发者实现数据算力升级，支持海量数据的亚秒级快速响应。随着 Flink 1.9 版本发布实现的架构升级、Table & SQL 的重构以及批、流数据处理的改进，Flink 的实时计算性能更加强大，易用性也有了极大提升。

技术图片
下一代云原生分布式流数据平台：Apache Pulsar
Apache Pulsar 源于 Yahoo，2016 年开源，2018 年正式成为 Apache 顶级项目，集消息、存储和函数式轻量化计算的流数据平台。
技术上采用业界领先的计算和存储分离架构，使用 Apache BookKeeper 作为其分片存储，配合层级存储，具备“高吞吐、低延时、分布式强一致、瞬时弹性扩容、Balance-Free、故障自恢复的高可用” 等核心特性。

技术图片
开源的非关系型分布式数据库：Apache HBase
Apache HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌 BigTable 的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase 的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过 10 亿行数据和数百万列元素组成的数据表。

技术图片
开源分布式 NoSQL 数据库系统：Apache Cassandra
Apache Cassandra 最初由 Facebook 开发，于 2008 年开源。它集 Google BigTable 的数据模型与Amazon Dynamo的完全分布式架构于一身，表现出良好的可扩展性和性能。在数据库排行榜“DB-Engines Ranking”中位于宽列存储模型数据库第一名, 同时也被 Apple, eBay, Netflix, 360，饿了么等知名国内外公司广泛使用，是当下一种流行的分布式结构化数据存储方案。