本文由 网易云 发布。 前言 Impala是一个MPP架构的查询系统,为了做到平台化服务,首先需要考虑就是如何做到资源隔离,多个产品之间尽可能小的甚至毫无影响。对于这种需求,最好的隔离方案无疑是物理机器上的隔离,A产品使用这几台机器,B产品使用那几台机器,然后前端根据产品路由到不同集群,这样可以做到 ...
分类:
其他好文 时间:
2018-05-07 19:53:04
阅读次数:
181
Impala 相关 Impala的常用端口: jdbc/ODBC 端口: 21050 impala-shell 访问端口21000 web UI地址: impalad节点(一个集群多个该类节点) http://impalad_node:25000/ impala-state节点(一个集群一个该类节点 ...
分类:
Web程序 时间:
2018-04-30 14:40:58
阅读次数:
1025
参考 https://www.cloudera.com/documentation/enterprise/5 5 x/topics/impala_datetime_functions.html hdfs文件操作 Impala和关系数据库 Impala | 关系型数据库 | Impala使用类似于Hi ...
分类:
其他好文 时间:
2018-04-14 00:40:13
阅读次数:
2791
Kudu+Impala很适合数据分析, 但直接使用Insert values语句往Kudu表插入数据, 效率实在不好, 测试下来insert的速度仅为80笔/秒. 原因也是显然的, Kudu本身写入效率很高, 但是Impala并没有做这方面优化, 观察下来每次Impala语句执行的overhead都 ...
分类:
编程语言 时间:
2018-04-05 01:27:39
阅读次数:
5155
几张图看懂列式存储 从Dremel和Impala的学习引申出了SQL查询的并行执行问题,于是借此机会深入学习一下关系数据库以及关系代数的并行计算。 Speedup和Scaleup Speedup指用两倍的硬件换来一半的执行时间。 Scaleup指两倍的硬件换来同等时间内执行两倍的任务。 但往往事情不 ...
分类:
数据库 时间:
2018-04-04 14:49:16
阅读次数:
165
时间函数 --当前时间戳now()current_timestamp() --当前时间戳相对于 linux epoch 的秒数unix_timestamp() , 不带参数, 则返回 '1970-01-01 00:00:00' UTC 到现在的秒数 -- 转换到相对于 linux epoch 的秒数 ...
分类:
其他好文 时间:
2018-03-21 11:47:36
阅读次数:
29753
常用字符串函数 base64decode(string str) : base64 解码.base64encode(string str) : base64 编码. fnv_hash(type v) : 对参数值做hash, 注意结果有正有负 trim(string a): 去除 leading 和 ...
分类:
其他好文 时间:
2018-03-21 11:32:20
阅读次数:
16728
查看内置的函数 hive 不需要进入什么内置数据库, 即可使用 show functions 命令列出所有内置的函数. show functions; -- hive仅显示函数的名称, 没有参数和返回值信息. desc function function_name ; -- 该命令能显示函数的具体用 ...
分类:
其他好文 时间:
2018-03-21 11:29:05
阅读次数:
6603
本文主要介绍SparkSQL的优化器系统Catalyst,其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等),因此通过本文的学习也可以基本了解所有其他SQL处理引擎的工作原理。 SQL优化器核心执行策略主 ...
分类:
数据库 时间:
2018-03-18 20:05:41
阅读次数:
356
使用cloudera工具集搭建的impala集群 使用cloudera工具集搭建的impala集群 查询的时候报错,显示节点内存不足,报错如下: 在官网查到是impala的配置Impala Daemon Memory Limit 设置过小引起的, 增大内存。 重启之后查询ok ...
分类:
其他好文 时间:
2018-03-12 21:00:12
阅读次数:
700