搜索关键字：分桶，搜索到64个结果！码迷,mamicode.com！

hadoop +streaming 排序总结

参考http://blog.csdn.net/baidu_zhongce/article/details/49210787 hadoop用于对key的排序和分桶的设置选项比较多，在公司中主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用 ...

分类：编程语言时间：2017-06-16 10:12:12 阅读次数：130

Hive 桶的分区

(一)、桶的概念：对于每一个表（table）或者分区， Hive可以进一步组织成桶(没有分区能分桶吗？)，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Buck ...

分类：其他好文时间：2017-05-01 22:28:36 阅读次数：344

Hive中的分桶

对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理 ...

分类：其他好文时间：2017-04-29 13:46:38 阅读次数：7414

Hive里的分区和分桶再谈

分桶是细粒度的，分桶是不同的文件。分区是粗粒度的，即相当于，表下建立文件夹。分区是不同的文件夹。桶在对指定列进行哈希计算时，会根据哈希值切分数据，使每个桶对应一个文件。里面的id是哈希值，分过来的。分桶，一般用作数据倾斜和数据抽样方面。由此，可看出是细粒度。注意：普通表（外部表、内部表）、 ...

分类：其他好文时间：2017-03-22 23:27:50 阅读次数：440

特征处理

特征工程一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本与负样本分别构建分类器，然后vote 2．数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) ...

分类：其他好文时间：2016-12-11 12:24:54 阅读次数：343

大数据题目思路总结

1）给一个超过100G大小的log file，log中存着IP地址，设计算法找到出现次数最多的IP地址？（与如何知道top K的IP，如何使用Linux系统命令实现） Hash分桶法：将100G文件分成1000份，将每个IP地址映射到相应文件中：file_id = hash(ip) % 1000 ...

分类：其他好文时间：2016-11-08 14:12:37 阅读次数：145

互联网直播平台架构案例一

直播平台整体架构视频直播链路视频流转换成不同清晰度不同的端，不同的网络环境，需要不同码率，以保流畅播放器的基本实现 SDK在播放器上做层管理视频相关技术细节消息发送流程不同消息通道的优劣对比心跳及房间结构用户按需分桶固定分桶与按需分桶对比关键词及垃圾文本过滤大促风险控制平台... ...

分类：其他好文时间：2016-09-10 23:49:10 阅读次数：320

把 Elasticsearch 当数据库使：聚合后排序

使用 https://github.com/taowen/es-monitor 可以用 SQL 进行 elasticsearch 的查询。有的时候分桶聚合之后会产生很多的桶，我们只对其中部分的桶关心。最简单的办法就是排序之后然后取前几位的结果。 ORDER BY _term SQL Elastics ...

分类：数据库时间：2016-06-02 18:07:00 阅读次数：723

Hive之分区（Partitions）和桶（Buckets）

转自：http://www.aahyhaa.com/archives/316 hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为了可以让查询 ...

分类：其他好文时间：2016-05-24 20:48:32 阅读次数：212

aggregation 详解3(bucket aggregation)

概述桶分聚合不进行权值的计算，他们对文档根据聚合请求中提供的判断条件（比如：{"from":0, "to":100}）来进行分组（桶分）。桶分聚合还会额外返回每一个桶内文档的个数。桶分聚合可以包含子聚合——sub-aggregations（权值聚合不能包含子聚合），子聚合将会应用到由父（par ...

分类：其他好文时间：2016-05-18 00:16:04 阅读次数：779

共64条上一页 1 ... 3 4 5 6 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)