一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
几张图看懂列式存储 从Dremel和Impala的学习引申出了SQL查询的并行执行问题,于是借此机会深入学习一下关系数据库以及关系代数的并行计算。 Speedup和Scaleup Speedup指用两倍的硬件换来一半的执行时间。 Scaleup指两倍的硬件换来同等时间内执行两倍的任务。 但往往事情不 ...
分类:
数据库 时间:
2018-04-04 14:49:16
阅读次数:
165
简介: Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎。分布式、无模式(schema-free) 是Google Dremel的开源实现,本质是一个分布式的mpp(大规模并行处理)查询层,支持SQL及一些用于NoSQL和Hadoop数据存储系统 ...
分类:
其他好文 时间:
2017-08-10 01:20:11
阅读次数:
226
Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对 ...
分类:
其他好文 时间:
2017-03-14 13:14:35
阅读次数:
368
转自:http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_con ...
分类:
Web程序 时间:
2017-03-02 17:21:42
阅读次数:
1427
大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理 ...
分类:
其他好文 时间:
2017-01-26 17:20:38
阅读次数:
678
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产 ...
分类:
其他好文 时间:
2016-12-21 20:30:38
阅读次数:
322
分布式系统实践 1. 大数据时代快速SQL引擎-Impala http://dwz.cn/4G9mvt 摘要: 在Dremel论文发表之后,开源社区涌现出了一批基于MPP架构的SQL-on-Hadoop(HDFS)查询引擎,典型代表有Apache Impala、Presto、Apache Drill ...
分类:
其他好文 时间:
2016-11-26 11:23:53
阅读次数:
245
首先自己的 blog 好久没有写技术相关的东西了,今天又动笔了,好高兴!然后转载请注明出处。最后开始正题: 原文:Dremel made simple with Parquet | Twitter Engineering Blog Google 对于传说中3秒查询 1 PB 数据的 Dremel,有 ...
分类:
其他好文 时间:
2016-08-24 18:57:23
阅读次数:
187
1、hadoop、Hive、sqoop、spark、storm、odps、dremel、hbase(hadoop、spark重要) 2、oracle、mysql后台开发,以及对量海数据处理、高并发请求处理 3、熟悉Linux,Shell或Python等语言 4、互联网行业数据挖掘 5、分布式、多线程 ...
分类:
其他好文 时间:
2016-06-19 15:40:13
阅读次数:
147