1. 先吐个槽,hive的官方文档页面导航就是坨翔,当然,内容还是比较充实的。文档并没有分版本,只是在具体某些内容中对不同版本区别介绍;自己菜单的链接点击后,是一个全新的页面,导航实在太不友好了。
2. metastore
hive在部署时,要配置hive-site.xml,这里面的配置很重要的一部分是针对metastore的。什么是metastore?官方解释:"All the metadata for Hive tables and partitions are accessed through the Hive Metastore. ",简单翻一下“对所有hive原数据和分区的访问都要通过Hive Metastore”。
hive中对metastore的配置包含3部分,metastore database和metastore server和metastore client。
其中,metastore database分为Local/Embedded Metastore Database (Derby)和Remote Metastore Database,metastore server也分为Local/Embedded Metastore Server和Remote Metastore Server,本地配置既无太大意义,又要占不少篇幅,我就不讲了,后面的例子都是远程相关配置。
1)Remote metastore server并不需要额外配置,只要Remote Metastore Database配置好了,"hive --service metastore" 启动metastore会寻找database相关配置。
2)通常我配置了database,就不配置client了。一般我们的hive都是做服务端的情况较多,不用作为客户端,当然不用客户端的配置了。但是如果仅作为客户端,database配置就不需要了,服务端连元数据库,和客户端没半毛钱直接关系,当然就不需要配置了,但如果仅作为客户端,不过还要启动hiveServer2服务(该服务也需要访问元数据),那database也是必须配置的。还有一种情况,既是服务端又是客户端,不用说了,都配置上吧。 废话了一大堆,总结一句话,配置多了,一般不会出问题,配少了,就呵呵呵了。。
3)metastore服务端,客户端的应用场景。spark sql,spark shell终端连接应该就是以客户端的形式连接 hive的metastore服务的。难怪看到官方文档中说准备在3.0版本将metastore独立出去。本来嘛,获取元数据的小活,为什么非得要整合在hive中。
Remote Metastore Database:
Config Param |
Config Value |
Comment |
javax.jdo.option.ConnectionURL |
metadata is stored in a MySQL server |
javax.jdo.option.ConnectionDriverName |
MySQL JDBC driver class |
javax.jdo.option.ConnectionUserName |
user name for connecting to MySQL server |
javax.jdo.option.ConnectionPassword |
password for connecting to MySQL server |
Remote Metastore Server In remote metastore setup, all Hive Clients will make a connection to a metastore server which in turn queries the datastore (MySQL in this example) for metadata. Metastore server and client communicate using Thrift Protocol. Starting with Hive 0.5.0, you can start a Thrift server by executing the following command:
启动远程metastore后,hive客户端连接metastore服务,从而可以从数据库(本例中位mysql)查询到原数据信息。metastore服务端和客户端通信是通过thrift协议。从hive 0.5.0版本开始,你可以通过执行
hive --service metastore
Config Param |
Config Value |
Comment |
hive.metastore.uris |
host and port for the Thrift metastore server |
hive.metastore.local |
Metastore is remote. Note: This is no longer needed as of Hive 0.10. Setting hive.metastore.uri is sufficient. |
hive.metastore.warehouse.dir |
Points to default location of non-external Hive tables in HDFS. |
3. hiveServer2
HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here).
The current implementation, based on Thrift RPC, is an improved version of HiveServer and supports multi-client concurrency and authentication.
HiveServer2(HS2)是一个服务端接口,使远程客户端可以执行对Hive的查询并返回结果。目前基于Thrift RPC的实现是HiveServer的改进版本,并支持多客户端并发和身份验证
1 $HIVE_HOME/bin/hiveserver2 2 或者 3 $HIVE_HOME/bin/hive --service hiveserver2
启动hiveServer2服务后,就可以使用jdbc,odbc,或者thrift的方式连接。 用java编码jdvc或则beeline连接使用jdvc的方式,据说hue是用thrift的方式连接的hive服务。
