orchestrator raft leader频繁变化问题

时间：2020-07-05 00:38:51 阅读：87 评论：0 收藏：0 [点我收藏+]

最近在使用orchestrator的过程中，遭遇了严重的问题。
最初上线的几个月里，raft leader非常稳定。
但随着时间的推移，raft leader 频繁变化的问题就爆发了。

leader的变化，直接原因，就是leader没有按时发送heartbeat，从而触发了选举机制。

第一个怀疑的原因，就是网络抖动，出现丢包。但是，通过查看监控数据，发现没有丢包迹象。接着，通过tcpdump抓包，也证实没有数据丢失。

第二个怀疑的是，raft的代码实现有问题。查看github仓库，已经很长时间没有release了。翻看issue，找到2个相似的，但这些issue没有追查询下去，最后没有什么具体结论就关闭了。

第三个怀疑的是，系统负载和内存使用。
从监控数据看，16核机器，负载在1左右徘徊。16G内存，空闲率在30%-50%，偶尔某台机器低于10%。
从这些数据看，无法确切判定，就是机器资源耗尽导致的。

接着使用pprof查看goroutine、内存情况，并抓trace，发现snapshot操作出现大量堆积，多的时候有9000+goroutine。
在内存使用上，snapshot也是消耗最多的。
由于频繁申请大量内存，GC次数和耗时出现严重增加。
这样，就影响了goroutine的调度，尤其是对时间敏感的goroutine，例如hearbeat，导致其发送时间延后。

关于snapshot的为什么消耗内存，下次再具体介绍。

orchestrator raft leader频繁变化问题

标签：github 机器系统第一个抓包增加过程使用为什么

原文地址：https://www.cnblogs.com/lanyangsh/p/13237193.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行