根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。本文就带你来了解这些主流的开源SQL引擎!背景介绍 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以 ...
分类:
数据库 时间:
2017-04-24 21:20:23
阅读次数:
524
大数据场景一、各种标签查询 查询要素:人、事、物、单位 查询范围:A范围、B范围、... 查询结果:pic、name、data from 1、痛点:对所有文本皆有实时查询需求2、难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询 ...
分类:
其他好文 时间:
2017-04-06 21:24:49
阅读次数:
204
转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calci ...
分类:
数据库 时间:
2017-03-27 10:25:22
阅读次数:
666
1. impala 实时交互SQL大数据查询工具 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。 Impala的最大特点也是最大卖点就是它的快速。 Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式 通过使用与商用并行关系数据库中 ...
分类:
其他好文 时间:
2017-03-23 11:35:12
阅读次数:
251
Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对 ...
分类:
其他好文 时间:
2017-03-14 13:14:35
阅读次数:
368
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不..
分类:
编程语言 时间:
2017-03-12 22:08:16
阅读次数:
189
排序可以说是很多日志系统的硬指标(如按照时间逆序排序),如果一个大数据系统不能进行排序,基本上是这个系统属于不可用状态,排序算得上是大数据系统的一个“刚需”,无论大数据采用的是hadoop,还是spark,还是impala,hive,总之排序是必不可少的,排序的性能测试也是必不可少的。 有着计算奥运 ...
分类:
编程语言 时间:
2017-03-12 16:34:23
阅读次数:
205
《实时分析系统(HIVE/HBASE/IMPALA)浅析》《MPP DB 是 大数据实时分析系统 未来的选择吗?》《一套数据,多种引擎(impala/Hive/kylin)》《一套数据,多种引擎续 两种数据格式(Parquet/ORCfile)浅析》有兴趣可以看看。 ...
分类:
其他好文 时间:
2017-03-01 18:13:03
阅读次数:
173
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hiv ...
分类:
其他好文 时间:
2017-02-22 16:31:39
阅读次数:
314
Phoenix安装详解 描述 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天的主角是Phoenix。 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金 ...
分类:
其他好文 时间:
2017-02-14 16:02:38
阅读次数:
589