大数据分析处理框架——离线分析（hive，pig，spark）、近似实时分析（Impala）和实时分析（storm、spark streaming）

时间：2017-01-26 17:20:38 阅读：678 评论：0 收藏：0 [点我收藏+]

标签：orm strong dremel 查询 tac yarn hdf 速度 href

大数据分析处理架构图

数据源： 除该种方法之外，还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构，而特别要说的是流数据，它的核心就是数据的连续性和快速分析性；

计算层： 内存计算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有内存将要处理的数据加载其中，省掉很多I/O开销和硬盘拖累，从而加快计算。而Impala思想来源于Google Dremel，充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度，这也就是我上面说到的近似实时查询；底层的文件系统当然是HDFS独大，也就是Hadoop的底层存储，现在大数据的技术除了微软系的意外，基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版，和在一起就是Hadoop最新版本。基于之上的应用有Hive，Pig Latin，这两个是利用了SQL的思想来查询Hadoop上的数据。

大数据分析处理框架——离线分析（hive，pig，spark）、近似实时分析（Impala）和实时分析（storm、spark streaming）

标签：orm strong dremel 查询 tac yarn hdf 速度 href

原文地址：http://www.cnblogs.com/bonelee/p/6351722.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行