一. Phoenix的简介 1. 什么是phoenix 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Phoenix。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提 ...
分类:
数据库 时间:
2018-08-26 11:52:30
阅读次数:
270
Hive函数大全(部分) 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 ...
分类:
其他好文 时间:
2018-08-19 23:26:33
阅读次数:
239
参考自https://blogs.msdn.microsoft.com/pliu/2016/06/18/run-hue-spark-notebook-on-cloudera/ 说明 使用Cloudera Manager部署CDH群集时,可以使用Hue Web UI运行Hive和Impala查询。但S ...
分类:
其他好文 时间:
2018-08-16 17:43:07
阅读次数:
672
近年来,随着分布式数据处理技术的不断革新,Hive、Spark、Kylin、Impala、Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益成为各类企业和机构的标配。在这种背景下,是否能探索和挖掘数据价值,具备精细化数据运营的能力,就成为判定一个数据团队成... ...
分类:
编程语言 时间:
2018-08-03 14:39:52
阅读次数:
180
概述 Impala可以直接在存储在HDFS,HBase或Amazon Simple Storage Service(S3)中的Apache Hadoop数据上提供快速,交互式的SQL查询。 除了使用相同的统一存储平台,Impala和Apache Hive一样还使用相同的元数据,SQL语法(Hive ...
分类:
其他好文 时间:
2018-07-11 20:03:34
阅读次数:
175
[创建目录]hdfs dfs -mkdir -p /user/hdfs/sample_data/csv/devicehdfs dfs -mkdir -p /user/hdfs/sample_data/csv/metrics [赋予权限]sudo -u hdfs hadoop fs -chown -R ...
分类:
其他好文 时间:
2018-06-27 14:56:34
阅读次数:
1190
环境 CDH版本:5.12.1 添加impala parcel 1、菜单“主机”--》Parcel--》配置--》远程 Parcel 存储库 URL,点击添加按钮,添加一个URL,https://archive.cloudera.com/beta/impala-kudu/parcels/latest ...
分类:
其他好文 时间:
2018-06-26 20:04:54
阅读次数:
401
搭建集群的时候,hdfs的数据挂载点一定要指定到独立的目录,不要制定到/home之类的下面,因为在使用过程中很有可能导致某个挂载点满了,要是这样的话,/home可能就满了,影响linux系统的正常使用。如果多个挂载点存储空间大小相差较大,那么一般设置策略的时候最好设置按照空间,而不要用默认的轮训方式,要不容易空间小的磁盘先满。impala在使用过程中要注意建表的时候指定路径不要指定到根目录
分类:
其他好文 时间:
2018-06-22 14:47:24
阅读次数:
161
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开 ...
分类:
其他好文 时间:
2018-05-17 11:58:34
阅读次数:
192
本次DTCC数据库技术大会是第9届了,这次大会虽然有不少公司的产品推介,总体来说还是有不少干货的。 专场较多,有选择地主要听了大数据实践跟流式计算这块。网易跟滴滴的分享比较不错。 了解到了现在大家是用spark streaming/ Flink来进行流式计算的比较多。 我们之前都是用kafka+st ...
分类:
数据库 时间:
2018-05-13 12:03:59
阅读次数:
197