HIVE数据操作

时间：2016-09-27 14:44:40 阅读：247 评论：0 收藏：0 [点我收藏+]

标签：

Hive数据操作

1.向管理表中装载数据

hive没有行级别数据插入、数据更新和删除操作。

采用“大量”的数据装载操作，或者通过其它方式仅仅将文件写入到正确目录下。

LOAD DATA LOCAL INPATH ‘${env:HOME}/california-employees‘

OVERWRITE INTO TABLE employees

PARTITION (country=‘US‘, state=‘CA‘);

关于PARTITION:

关于LOCAL:

关于OVERWRITE:

2.通过查询语句向表中插入数据

　　一次创建一个分区语法：

INSERT OVERWRITE TABLE employees

PARTITION (country=‘US‘,state=‘OR‘)

SELECT * FROM staged_employees se

WHERE se.cnty=‘US‘ AND se.st=‘OR‘;

关于OVERWRITE:

　　一次创建多个分区语法：

如果表staged_emplyees非常大，用户需要对65个州都执行这些语句，那就意味着要扫描staged_employees 65次，所以可以采用另一各INSERT语法，例子中显示了如何为3个州创建表employees分区：

FROM stage_employees se

INSERT OVERWRITE TABLE employees

PARTITION (country=‘US‘,state=‘OR‘)

SELECT * WHERE se.cnty=‘US‘ AND se.st= ‘OR‘

INSERT OVERWRITE TABLE employees

PARTITION (country=‘US‘,state=‘CA‘)

SELECT * WHERE se.cnty=‘US‘ AND se.st= ‘CA‘

INSERT OVERWRITE TABLE employees

PARTITION (country=‘US‘,state=‘IL‘)

SELECT * WHERE se.cnty=‘US‘ AND se.st= ‘IL‘;

当然这里可以混合使用INSERT OVERWRITE 或INSERT INTO句式。

　　动态分区插入语法：

根据前边语法，当创建非常多的分区时，就需要写非常多的SQL，所以hive提供了动态分区功能，前边用到的属于静态分区。

动态分区语法如下：

INSERT OVERWRITE TABLE employees

PARTITION (country,state)

SELECT ..., se.cnty,se.st

FROM staged_employees se;

HIVE根据SELECT语句中最后2列确定分区字段country和state的值。这就是为什么在表staged_employees中我们使用了不同的命名，是为了强调源表字段值和输出分区值之间的关系是根据位置而不是根据命名来匹配的。
假设表staged_employees中有100个国家和州的话，执行完上述语句后，表employees就会有100个分区。

　　动态分区和静态分区混合使用语法：

动态分区功能默认情况下未开户，开启后默认是“严格”模式执行，该模式下要求至少有一列分区字段是静态的。这样设计有助于防止因设计错误导致查询产生大量的分区。

动态分区属性：