首页 > 其他好文 > 详细

Hive

时间：2020-05-18 16:01:16 阅读：183 评论：0 收藏：0 [点我收藏+]

标签：结构下载离线 ORC snap pre 作业基本使用仓库

Hive产生背景：

　　mapreduce编程的不便性

　　HDFS上的文件缺少Schema

Hive

Facebook开源的，最初用于海量结构化的日志数据统计问题

构建在hadoop之上的数据仓库

hive定义了一种类SQL查询语言：HQL（类似SQL但不完全相同）

通常用于离线数据处理（采用mapreduce）

底层支持多种不同的执行引擎：

Hive on Mapreduce

Hive on Tez

Hive on Spark

支持多种不同的压缩格式、存储格式以及自定义的函数

压缩：GZIP LZO snappy BZIP2..

存储：TextFile、SequenceFile、RCFile、ORC、Parquet

UDF：自定义函数

官网：hive.apache.org

为什么要使用Hive

简单、易上手（提供类似SQL查询语言HQL）

为超大数据集设计的计算/存储扩展能力（MR计算、HDFS存储）

统一的元数据管理（可与presto/Impala/SparkSQL等共享数据）

------一句话总结：hive使用SQL完成大数据相关统计分析操作

Hive环境搭建

1）hive下载hive-1.1.0-cdh5.7.0

2）解压

3）配置

官网

系统环境变量（~/.bash_profile）

事先安装一个MySQL，

hive-site.xml

四个属性配置

4）拷贝MySQL驱动到$HIVE_HOME/lib/

5）启动hive：HIVE_HOME/bin/hive

hive基本使用

创建表

使用hive完成Wordcount统计（对比mapreduce实现的易用性）

案例：员工表和部门表操作

hive SQL提交执行以后会生成mr作业，并在yarn上运行

标签：结构下载离线 ORC snap pre 作业基本使用仓库

原文地址：https://www.cnblogs.com/liuffblog/p/12910661.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！