HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Hive,Hive方便地提供了Hiv ...
分类:
其他好文 时间:
2021-01-21 10:54:30
阅读次数:
0
一、问题描述 查询的语句类似如下: select * from table_name where xxx='yyy' limit 10; 当前的hive表存储格式是orc格式,执行引擎是tez,并行度也已经调整到几十了,但是在执行这个sql的时候,发现一直卡住,执行不成功。 二、问题现象 and 分 ...
分类:
其他好文 时间:
2020-12-25 13:03:17
阅读次数:
0
Hive是什么? 个人理解是把存储在hdfs上的数据映射位一张数据库表,提供类sql(HQL)语句的查询,方便数据的分析,查询。另外一点就是自动的把HQL转化为MapRudecu、Tez、Spark执行。 Hive的架构 用户接口:可以是hive shell,jdbc(java 访问hive),we ...
分类:
其他好文 时间:
2020-04-27 15:21:33
阅读次数:
59
现象描述 在使用Tez引擎查询时,发现一个bug: SELECT t1.*,t2.activity_id,t3.timeMap from (select * from ods_order_info where dt='2020-03-29') t1 --单独查询结果为7条 left join (se ...
分类:
其他好文 时间:
2020-04-10 19:45:14
阅读次数:
271
前提 Hive 需要是 2.0以上版本 Tez配置 下载好tar包后,将tar包上传到HDFS集群路径下 hadoop fs -put /opt/software/apache-tez-0.9.1-bin.tar.gz/ /tez 将Linux本机上的tar包解压 Hive配置 在hive/conf ...
分类:
其他好文 时间:
2020-03-31 22:43:48
阅读次数:
632
首先先简单介绍下hive: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 核心架构: Hive官网地址 http:// ...
分类:
其他好文 时间:
2020-03-26 01:39:24
阅读次数:
93
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau ...
分类:
其他好文 时间:
2019-10-14 12:15:22
阅读次数:
95
timeline server挂了 hive也挂了 hive使用的tez 而tez设置了 Using YARN Timeline with Tez for History 详见http://tez.apache.org/tez_yarn_timeline.html ...
分类:
其他好文 时间:
2019-08-28 11:13:33
阅读次数:
79
hive 调优(一)coding调优 本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不是很稳定,建议Tez先),所以离线还是用hive比较好。 先将工作中总结,以及学习其他人的hive优 ...
分类:
其他好文 时间:
2019-06-19 12:15:58
阅读次数:
99
1、执行过程失败,报 Container killed on request. Exit code is 143 如下图: 分析:造成这种原因是由于总内存不多,而容器在jvm中占比过高,修改tez-site.xml文件,添加如下配置: 2、ERROR [main] exec.TaskRunner: ...
分类:
其他好文 时间:
2019-06-19 10:50:13
阅读次数:
249