码迷,mamicode.com
首页 >  
搜索关键字:dremel    ( 27个结果
apache开源项目--Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了Google's Dremel.Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户...
分类:Web程序   时间:2016-01-05 18:44:42    阅读次数:163
列式存储 Parquet
1. ?最初创建Parquet的目的是:要在Hadoop生态系统中,充分利用数据压缩、有效列式存储的优势。Parquet面向复杂的嵌套数据结构,使用Dremel中的record shredding and assembly算法,其与简单命名空间嵌套的...
分类:其他好文   时间:2015-10-16 13:43:34    阅读次数:674
[转载] Google大数据引擎Dremel剖析(1)
原文:https://mp.weixin.qq.com/s?__biz=MjM5NzAyNTE0Ng==&mid=207895956&idx=1&sn=58e8af26fd3c6025acfa5bc679d2ab01&scene=1&srcid=0919Sz0SAs6DNlHTl7GYxrGW&ke...
分类:其他好文   时间:2015-09-22 16:22:30    阅读次数:238
Google之海量数据的交互式分析工具Dremel
Google Dremel 原理 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,...
分类:其他好文   时间:2015-08-17 21:48:43    阅读次数:1335
Apache Drill初探
Apache Drill初探 介绍 Apache Drill是一个开源的,对于Hadoop和NoSQL低延迟的SQL查询引擎。Apache Drill 实现了Google's Dremel.那么什么是Google's Dremel?网络中一段描述:Dremel 是Google 的"交互式"数据分析系...
分类:Web程序   时间:2015-07-25 00:11:12    阅读次数:1143
Drill中实现HTTP storage plugin
Apache Drill可用于大数据的实时分析,引用一段介绍: 受到Google Dremel启发,Apache的Drill项目是对大数据集进行交互式分析的分布式系统。Drill并不会试图取代已有的大数据批处理框架(Big Data batch processing framework),如Hadoop MapReduce或流处理框架(stream processing framework)...
分类:Web程序   时间:2015-05-30 21:14:04    阅读次数:247
Impala与Hive的比较
1. Impala架构 ?????? Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引...
分类:其他好文   时间:2015-03-18 12:34:49    阅读次数:214
Google Dremel 原理 - 如何能3秒分析1PB
Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google ...
分类:其他好文   时间:2015-01-27 21:35:45    阅读次数:290
谷歌Dremel即时数据分析解决方案
Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。
分类:其他好文   时间:2015-01-27 21:31:48    阅读次数:374
关系代数的并行计算
从Dremel和Impala的学习引申出了SQL查询的并行执行问题,于是借此机会深入学习一下关系数据库以及关系代数的并行计算。Speedup和ScaleupSpeedup指用两倍的硬件换来一半的执行时间。Scaleup指两倍的硬件换来同等时间内执行两倍的任务。但往往事情不是那么简单,两倍的硬件也会带来其他问题:更多CPU带来的长启动时间和通信开销,以及并行计算带来的数据倾斜问题。多处理器架构共享内...
分类:其他好文   时间:2014-12-13 15:12:15    阅读次数:254
27条   上一页 1 2 3 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!