参考http://blog.csdn.net/baidu_zhongce/article/details/49210787 hadoop用于对key的排序和分桶的设置选项比较多,在公司中主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用 ...
分类:
编程语言 时间:
2017-06-16 10:12:12
阅读次数:
130
(一)、桶的概念: 对于每一个表(table)或者分区, Hive可以进一步组织成桶(没有分区能分桶吗?),也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Buck ...
分类:
其他好文 时间:
2017-05-01 22:28:36
阅读次数:
344
对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理 ...
分类:
其他好文 时间:
2017-04-29 13:46:38
阅读次数:
7414
分桶是细粒度的,分桶是不同的文件。 分区是粗粒度的,即相当于,表下建立文件夹。分区是不同的文件夹。 桶在对指定列进行哈希计算时,会根据哈希值切分数据,使每个桶对应一个文件。 里面的id是哈希值,分过来的。 分桶,一般用作数据倾斜和数据抽样方面。由此,可看出是细粒度。 注意:普通表(外部表、内部表)、 ...
分类:
其他好文 时间:
2017-03-22 23:27:50
阅读次数:
440
特征工程 一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本 与 负样本 分别构建分类器,然后vote 2. 数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) ...
分类:
其他好文 时间:
2016-12-11 12:24:54
阅读次数:
343
1)给一个超过100G大小的log file,log中存着IP地址,设计算法找到出现次数最多的IP地址?(与如何知道top K的IP,如何使用Linux系统命令实现) Hash分桶法: 将100G文件分成1000份,将每个IP地址映射到相应文件中:file_id = hash(ip) % 1000 ...
分类:
其他好文 时间:
2016-11-08 14:12:37
阅读次数:
145
直播平台整体架构 视频直播链路 视频流转换成不同清晰度 不同的端,不同的网络环境,需要不同码率,以保流畅 播放器的基本实现 SDK在播放器上做层管理 视频相关技术细节 消息发送流程 不同消息通道的优劣对比 心跳及房间结构 用户按需分桶 固定分桶与按需分桶对比 关键词及垃圾文本过滤 大促风险控制 平台... ...
分类:
其他好文 时间:
2016-09-10 23:49:10
阅读次数:
320
使用 https://github.com/taowen/es-monitor 可以用 SQL 进行 elasticsearch 的查询。有的时候分桶聚合之后会产生很多的桶,我们只对其中部分的桶关心。最简单的办法就是排序之后然后取前几位的结果。 ORDER BY _term SQL Elastics ...
分类:
数据库 时间:
2016-06-02 18:07:00
阅读次数:
723
转自:http://www.aahyhaa.com/archives/316 hive引入partition和bucket的概念,中文翻译分别为分区和桶(我觉的不是很合适,但是网上基本都是这么翻译,暂时用这个吧),这两个概念都是把数据划分成块,分区是粗粒度的划分桶是细粒度的划分,这样做为了可以让查询 ...
分类:
其他好文 时间:
2016-05-24 20:48:32
阅读次数:
212
概述 桶分聚合不进行权值的计算,他们对文档根据聚合请求中提供的判断条件(比如:{"from":0, "to":100})来进行分组(桶分)。 桶分聚合还会额外返回每一个桶内文档的个数。 桶分聚合可以包含子聚合——sub-aggregations(权值聚合不能包含子聚合),子聚合将会应用到由父(par ...
分类:
其他好文 时间:
2016-05-18 00:16:04
阅读次数:
779