分桶是细粒度的,分桶是不同的文件。 分区是粗粒度的,即相当于,表下建立文件夹。分区是不同的文件夹。 桶在对指定列进行哈希计算时,会根据哈希值切分数据,使每个桶对应一个文件。 里面的id是哈希值,分过来的。 分桶,一般用作数据倾斜和数据抽样方面。由此,可看出是细粒度。 注意:普通表(外部表、内部表)、 ...
分类:
其他好文 时间:
2017-03-22 23:27:50
阅读次数:
440
--创建外部表 CREATE EXTERNAL TABLE my_report( last_update string, col_a string) PARTITIONED BY ( par_dt string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ', ...
分类:
其他好文 时间:
2017-02-16 14:42:15
阅读次数:
152
建表规则如下: ?CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常 ?EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION) ?LIKE 允许用户复制现 ...
分类:
其他好文 时间:
2016-12-18 23:49:02
阅读次数:
356
1.建立hive的外部表匹配hdfs上的数据 出现如下报错: 再来看一下这个表的结构: 可以发现这个表没有建立分区,但是在hdfs上是有分区的: 解决方法是删除这个分区目录,就可以匹配数据了: 2.hive建立有分区的外部表时,发现没有数据 有可能是因为没有加partition,加partiiton ...
分类:
其他好文 时间:
2016-12-13 16:15:03
阅读次数:
262
使用APPLY运算符可以实现查询操作的外部表表达式返回的每个调用表值函数。表值函数作为右输入,外部表表达式作为左输入。 通过对右输入求值来获得左输入每一行的计算结果,生成的行被组合起来作为最终输出。APPLY 运算符生成的列的列表是左输入 中的列集,后跟右输入返回的列的列表。 APPLY存在两种形式 ...
分类:
移动开发 时间:
2016-12-11 02:12:19
阅读次数:
276
一、cstore_fdw的简介 https://github.com/citusdata/cstore_fdw,此外部表扩展是由citusdata公司开发,使用orc_file格式对数据进行列式存储。 优点1:因为有压缩,所以在disk上的存储大大减少,压缩比能达到2-4倍 优点2:数据内部分块存储 ...
分类:
其他好文 时间:
2016-12-05 11:42:10
阅读次数:
217
转自http://blog.itpub.net/22664653/viewspace-1692317/ 一 介绍 相信许多开发/DBA在使用MySQL的过程中,对于MySQL处理多表关联的方式或者说性能一直不太满意。对于开发提交的含有join的查询,一般比较抗拒,从而建议将join拆分,避免join ...
分类:
数据库 时间:
2016-11-22 12:41:11
阅读次数:
199
1.关于hive的优化 -》大表拆分小表 -》过滤字段 -》按字段分类存放 -》外部表与分区表 -》外部表:删除时只删除元数据信息,不删除数据文件 多人使用多个外部表操作同一份数据文件 -》分区表:hive中的数据库,表,分区来说都是文件夹 提高了检索效率 -》手动创建 -》动态分区 -》外部表+分 ...
分类:
数据库 时间:
2016-11-18 14:17:08
阅读次数:
302
前言:(一)准备工作: 1.数据库要处于归档模式; 2.监听参数:local_listener 默认值为空--1521 3.关闭闪回(可能会触发数据库的bug,备库不能开闪回) 4.如果有外部表,外部表要删除。 (二)环境描述: 192.168.206.3 主库 ORA11GR2 192.168.2 ...
分类:
其他好文 时间:
2016-10-20 07:37:18
阅读次数:
186