码迷,mamicode.com
首页 > 其他好文 > 详细

Hive(一)基础知识

时间:2017-04-08 15:09:08      阅读:258      评论:0      收藏:0      [点我收藏+]

标签:方式   mapreduce   nal   sql   词法   ica   逻辑   ted   关系   

一、Hive的基本概念 (安装的是Apache hive 1.2.1)

     1、hive简介          

        Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类 SQL 查询功能, hive 底层是将 SQL 语句转换为 MapReduce 任务运行(类似于插件Pig\impala\Spark Sql)
                 结构化:有行有列,格式整齐标准

               非结构化:格式不统一,不标准,有长有短
               半结构化:参差不齐,有规律,并不是完全有规律

      2、为什么使用HIVE

             直接使用 Hadoop 所面临的问题:
                 人员学习成本太高
                 项目周期要求太短
                 MapReduce 实现复杂查询逻辑开发难度太大
            为什么要使用 Hive
                   操作接口采用类 SQL 的语法,提供快速开发的能力
                  避免了写 MapReduce,减少开发人员的学习成本
                  功能扩展很方便

       3、hive的特点               

           可扩展性(横向扩展)
                   Hive 可以自由的扩展集群的规模,而且一般情况下不需要重启服务
           延展性
                  Hive 支持自定义函数,用户可以根据自己的需求来实现自己的函数
           容错
                 良好的容错性,可以保障即使有节点出现问题, SQL 语句仍可完成执行

         ( 横向扩展:通过分担压力的方式扩展集群规模            纵向扩展:扩展线程,扩展内存等这种方式就是纵向扩展 )

       4、hive架构

技术分享

              用户接口:

                    CLI, shell 终端命令行,最常用(学习,调试,生产)
                    JDBC/ODBC,是 hive 的基于 JDBC 操作提供的客户端, 用户(开发员,运维人员) 通过 这连接至 hive server
                    Web UI ,通过浏览器访问 hive             

             元数据存储:
                      元数据,通俗的讲, 就是存储在 Hive 中的数据的描述信息。
                      Hive 中的元数据通常包括:表的名字,表的列和分区及其属性,表的属性(内部表和外部表),表的数据所在目录 

                      Metastore 默认存在自带的 Derby 数据库中。缺点就是不适合多用户操作,并且数据存 储目录不固定。数据库跟着 hive 走,极度不方便管理
                      解决方案:通常存我们自己创建的 MySQL 库(本地 或 远程)           

            解释器,编译器,优化器,执行器
                      这四大组件完成 HQL 查询语句从词法分析,语法分析,编译,优化,以及生成查询计  划的生成。生成的查询计划存储在 HDFS 中,并随后由 MapReduce 调用执行

            执行流程:               

                   HiveQL 通过命令行或者客户端提交,经过 Compiler 编译器,运用 Metastore 中的元数据 进行类型检测和语法分析,生成一个逻辑方案(logical plan),然后通过的优化处理,产生一 个 MapReduce 任务。

    5、hive和hadoop的关系

            技术分享        

             Hive 依赖于 HDFS 存储数据
             Hive 将 HQL 转换成 MapReduce 执行
             所以说 Hive 是基于 hadoop 的一个数据仓库工具,实质就是一款基于 HDFS 的 MapReduce 计 算框架
       6、hive和RDBMS的对比

技术分享   

        总结: hive 具有 sql 数据库的外表,但应用场景完全不同, hive 只适合用来做批量海量数据 统计分析
       7、hive的数据存储

              (1) Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持 Text,SequenceFile, ParquetFile, RCFILE 等)
                     SequenceFile 是 hadoop 中的一种文件格式:文件内容是以序列化的 kv 对象来组织的
              (2) 只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符, Hive 就可以解析数据
              (3) Hive 中包含以下数据模型:
                       db:在 hdfs 中表现为${hive. metastore.warehouse.dir}目录下一个文件夹
                    table:在 hdfs 中表现所属 db 目录下一个文件夹
                   external table:与 table 类似,不过其数据存放位置可以在任意指定路径
                   partition:在 hdfs 中表现为 table 目录下的子目录
                   bucket:在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件

                 (内界表,删除时,元数据和数据都删除;外界表删除时,表中数据还在,删除的是元数据信息)

二、hive环境搭建

      第一种版本:内嵌Derby版本           

         1、 上传安装包 apache-hive-1.2.1-bin.tar.gz
         2、 解压安装包 tar –zxvf apache-hive-1.2.1-bin.tar.gz
         3、 进入到 bin 目录,运行 hive 脚本: [hadoop@hadoop01 bin]$ ./hive

技术分享

       第二种版本:外置mysql版本

               1、 安装 MySQL
               2、 上传安装包 apache-hive-1.2.1-bin.tar.gz
               3、 解压安装包 tar –zxvf apache-hive-1.2.1-bin.tar.gz
               4、 修改配置文件
                    [root@hadoop01 conf]# vi hive-site.xml

技术分享

    

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop02:3306/hivedb?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>

       

       5、 一定要记得加入 mysql 的驱动包( mysql-connector-java-5.1.31-bin.jar)
       6、 启动 hive

三、hive使用方式,即三种连接方式

       1、CLI

技术分享

      2


 

 

 

 

 

      

Hive(一)基础知识

标签:方式   mapreduce   nal   sql   词法   ica   逻辑   ted   关系   

原文地址:http://www.cnblogs.com/liuwei6/p/6681674.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!