1、轮询策略:按照消息尽量保证每个分区的负载,消息会均匀分布到每个partition。写入消息的时候,key为null的时候,默认使用的是轮询策略。 2、随机策略:不使用。 3、按key写入策略:key.hash()%分区的数量。 4、自定义分区策略:类似于mapReduce指定分区。 乱序问题: ...
分类:
其他好文 时间:
2021-07-26 16:34:25
阅读次数:
0
数据积压指的是消费者因为一些外部的IO、一些比较耗时的操作(full GC--stop the world),就会造成消息在partition中一直存在得不到消费,就会产生数据积压。 所以需要监控系统(kafka的监控系统Eagle),如果出现这种情况,需要尽快处理,虽然后续的spark strea ...
分类:
其他好文 时间:
2021-07-13 17:40:18
阅读次数:
0
mysql创建分区时依赖字段需要设为主键 例 我的依赖字段为collect_time 需要先创建至少一个分区 例:创建第一个分区时间小于’2020-02-01’ALTER TABLE tb_electric_power_info PARTITION BY RANGE (TO_DAYS(collect ...
分类:
数据库 时间:
2021-07-02 16:36:57
阅读次数:
0
spark-RDD缓存,checkpoint机制,有向无环图,stage 1.RDD依赖关系 RDD依赖关系有2种不同类型,窄依赖和宽依赖。 窄依赖(narrow dependency):是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包 ...
分类:
其他好文 时间:
2021-06-22 18:39:47
阅读次数:
0
问题描述:给定一个数组arr,和一个数num,请把小于num的数放在数组的 左边,等于num的数放在数组的中间,大于num的数放在数组的 右边。 要求额外空间复杂度O(1),时间复杂度O(N) 问题分析:这部分其实和快排中的partition部分很相似,其思想就是将任意一个数组分成三部分,分别是小于 ...
分类:
其他好文 时间:
2021-06-17 16:35:19
阅读次数:
0
1 分组求TopN 一、先看数据: 使用HiveSQL常用的方式为: Select * from table, row_number() over(partition by item order by score desc) rank where rank<=2; 二、输出结果为: 三、解析:row ...
分类:
数据库 时间:
2021-06-13 10:48:09
阅读次数:
0
创建表 create table agg_source( \ id UInt8, \ name String, \ city String, \ money UInt32 \ ) engine=MergeTree() \ partition by city \ order by id; 插入数据 i ...
分类:
其他好文 时间:
2021-06-05 18:20:32
阅读次数:
0
1、建设表 2、每个函数的解释 -- 一条SQL解决ALL SELECT -- sql四大排序算法 ROW_NUMBER() over(PARTITION by age), RANK() over(PARTITION by age), DENSE_RANK() over(PARTITION by a ...
分类:
数据库 时间:
2021-06-02 14:10:56
阅读次数:
0
CAP 2000年Eric Brewer在ACM研讨会上提出的猜想:一致性(Consistency)、可用性(Availability)、分区容错(Partition-tolerance),三者无法在分布式系统中被同时满足,并且最多只能满足其中两个。 2003年MIT的Lynch证明了这三者确实是不 ...
分类:
其他好文 时间:
2021-05-24 03:01:36
阅读次数:
0
Kafka 基本术语 对于 Kafka 基本原理的介绍,可以通过对以下基本术语的介绍进行。 2.1.1 Topic 主题。在 Kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。 topic 相当于消息的分类标签,是一个逻辑概念。 2.1.2 Partition 分 ...
分类:
其他好文 时间:
2021-04-26 13:52:08
阅读次数:
0