Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容, ...
分类:
数据库 时间:
2017-07-07 23:32:44
阅读次数:
966
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 ...
分类:
数据库 时间:
2017-07-07 23:31:50
阅读次数:
372
和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构 ...
分类:
数据库 时间:
2017-07-03 00:57:27
阅读次数:
184
二、Spark2.x 介绍 2.1 Spark2.x 与 Spark1.x 关系 Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spa... ...
分类:
其他好文 时间:
2017-06-08 14:58:05
阅读次数:
551
008-Hadoop Hive sql语法详解3-DML 操作:元数据存储 ...
分类:
数据库 时间:
2017-06-05 18:00:00
阅读次数:
265
007-Hadoop Hive sql语法详解2-修改表结构 ...
分类:
数据库 时间:
2017-06-05 17:59:28
阅读次数:
220
009-Hadoop Hive sql语法详解4-DQL 操作:数据查询SQL ...
分类:
数据库 时间:
2017-06-05 17:57:47
阅读次数:
291
Hive 最适合应用在基于大量不可变数据的批处理作业。 1. 建表 CREATE ATBEL [IF NOT EXISTS] table_name (col_name data_type) CREATE TABLE 创建一个表,如果相同名字的表已经存在,则抛出异常。用IF NOT EXISTS来忽略 ...
分类:
数据库 时间:
2017-05-19 19:32:48
阅读次数:
263
相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hi ...
分类:
数据库 时间:
2017-05-14 16:14:23
阅读次数:
517
转自:http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。 SchemaRDD类似于传统关系型数 ...
分类:
数据库 时间:
2017-05-14 16:06:35
阅读次数:
254