Hive 学习（二） hive安装

时间：2019-05-21 15:57:51 阅读：159 评论：0 收藏：0 [点我收藏+]

标签：mysql 存储 roo 变量 null hadoop def 编辑 www.

一，文件下载

二，hive安装

　　2.1 mysql安装

　　2.2 解压hive

　　2.3 配置文件配置

　　2.4 环境变量配置

　　2.5 添加mysql的connect的jar包

三，hive使用方式

　　3.1 hive直接启动服务

　　3.2 hiveserver2以一个服务的方式启动

　　3.3 hive -e直接脚本方式运行

四，hive在HDFS中的数据显示

正文

一，文件下载

　　hive1.2.2下载：http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz

　　mysql-connect.jar：https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.zip

二，hive安装

　　2.1 mysql安装

　　安装连接：https://www.cnblogs.com/tashanzhishi/p/10006705.html

　　2.2 解压hive文件

tar -zxvf apache-hive-1.2.1-bin.tar.gz  # 我这里的是hive1.2.1，如从上面连接下载，改为1.2.2即可

　　下图是解压目录：

　　技术图片

　　2.3 配置文件配置

　　下面的配置主要是针对元数据的配置：若要配置其他信息可以参考：

vim /usr/local/hadoop/hive/apache-hive-1.2.1-bin/conf/hive-site.xml

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>qwe123</value>
<description>password to use against metastore database</description>
</property>
</configuration>

　　2.4 环境变量配置

　　配置完毕后对环境变量进行配置：

vim /etc/profile

　　添加如下图：

　　技术图片

　　然后重新加载一下环境变量：

　　技术图片

　　2.5 添加mysql的connect的jar包

　　该jar包主要是为了hive连接mysql如下：

三，hive使用方式

　　启动须知：使用hive前，需要将HDFS和YARN进行启动，再使用HIVE.

start-dfs.sh
start-yarn.sh

　　3.1 最基本使用方式

[root@hd2 ~]#hive
hive>

　　下图为实例：

　　技术图片

　　若在启动时出现如下情况：

　　技术图片

　　可以在配置文件中添加如下配置：

　　可以设置一些基本参数，让hive使用起来更便捷，比如：

　　1、让提示符显示当前库：

　　hive>set hive.cli.print.current.db=true;

　　2、显示查询结果时显示字段名称：

　　hive>set hive.cli.print.header=true;

　　但是这样设置只对当前会话有效，重启hive会话后就失效，解决办法：

　　在linux的当前用户目录中，编辑一个.hiverc文件，将参数写入其中：

　　vi .hiverc

set hive.cli.print.header=true;
set hive.cli.print.current.db=true;

　　3.2 启动hive服务使用

　　下面是启动hive服务，并且在后台运行：

nohup bin/hiveserver2 1>/dev/null 2>&1 &

　　启动成功后，可以在别的节点上用beeline去连接：

[root@hd2 ~]# beeline
beeline> !connect jdbc:hive2://localhost:10000 -n root    # -n root 表示root用户无需验证密码，可以不带该参数，后面就会输入密码

　　如下实例：

　　技术图片

　　测试使用：

　　技术图片

　　3.3 脚本化运行

　　大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：

　　该机制的核心点是：hive可以用一次性命令的方式来执行给定的hql语句

[root@hd2 ~]#  hive -e "use student; select * from t_test2;"

　　下面是实例：

　　技术图片

　　然后，进一步，可以将上述命令写入shell脚本中，以便于脚本化运行hive任务，并控制、调度众多hive任务，示例如下：

[root@hd2 ~] vi t_order_etl.sh

　　代码如下：

#!/bin/bash
hive -e "select * from db_order.t_order"
hive -e "select * from default.t_user"
hql="create table  default.t_bash as select * from db_order.t_order"
hive -e "$hql"