hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分 ...
分类:
其他好文 时间:
2017-08-27 13:32:39
阅读次数:
119
继续介绍几个序列函数:NTILE。ROW_NUMBER,RANK和DENSE_RANK环境信息:Hive版本号为apache-hive-0.14.0-binHadoop版本号为hadoop-2.6.0Tez版本号为tez-0.7.0数据:P088888888888,2016-02-10,1P0888 ...
Hive中提供了非常多的分析函数,用于完毕负责的统计分析。本文先介绍SUM、AVG、MIN、MAX这四个函数。环境信息:Hive版本号为apache-hive-0.14.0-binHadoop版本号为hadoop-2.6.0Tez版本号为tez-0.7.0构造数据:P088888888888,201 ...
******HDFS基本概念篇****** 1. HDFS前言 l 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 ...
分类:
其他好文 时间:
2017-06-23 20:58:26
阅读次数:
285
你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加速Hadoop查询处理”, ...
分类:
Web程序 时间:
2017-06-12 10:47:42
阅读次数:
293
本案例搭建的环境介绍如下:Ambari2.4.2+HDP2.5(hadoop2.7;hive1.2;Tez;Spark2.0)+jdk1.8.25+centos7.0,这里首先要关注些注意事项,至于为什么会一一说明。第一部分:注意事项:版本必须低于7.2selinux必须关闭firewalld必须关闭127.0.0.1hosts该条记录删除本地仓库必须搭..
分类:
其他好文 时间:
2017-04-04 17:53:04
阅读次数:
222
简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark ...
分类:
其他好文 时间:
2017-03-14 13:15:51
阅读次数:
247
Phoenix安装详解 描述 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天的主角是Phoenix。 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金 ...
分类:
其他好文 时间:
2017-02-14 16:02:38
阅读次数:
589
本文主要记录CentOS 6.5系统中,编译Apache Tez 0.8.3源码过程中Maven的报错和尝试并最终成功解决的方法,编译过程中没有花特别多时间去研究Maven原理和复杂操作,一切遇到的报错,都以编译成功Tez为首要目标,对错误的原因和解决背后原理不做深究。 ...
分类:
Web程序 时间:
2016-06-14 14:01:43
阅读次数:
560
随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。 Ha ...
分类:
其他好文 时间:
2016-04-11 23:53:19
阅读次数:
277