pt-heartbeat原理研究
一、简介
Mysql Seconds_Behind_Master参数对于主从延迟测量并不准确,因为他的统计基于 slave SQLthread 和I/O thread的时间差,如果i/o thread 受到网络影响,这个估值就非常不正确。一般采用更精确的主从延迟检测pt-heartbeat。pt-heartbeat分为两个部分第一个为update,发生在主库上,更新时间戳。第二个部分为monitor或check,发生在从库,检查主库传过来的时间戳与从库系统时间做比较。Check和 monitor区别在于check只是跑一次就退出,monitor是持续的检查主从延迟情况。--update, --monitor, and --check 是互斥的,只能选一个选项.
二、原理分析
从库:
perl /usr/bin/pt-heartbeat --user=dbadmin--password=NV7yVBpn88cg4WJCVlZd --host=10.128.6.94 --monitor --port=3306--create-table -D test --interval=10 --log=/tmp/testmysql.log --daemonize--file=/tmp/test_lag.log
可以发现hb当有create-table设置的时候就会自动在制定库里创建 heartbeat表(--create-table -D test,如果不规定-D 默认会在mysql库里新建,heartbeat表如果中途被删了,将会在—log里报错并且不再监控延迟),当发现表里没有数据时会自动插入记录,插入数据(ip和时间戳)包含主机信息(通过SHOW SLAVE STATUS)和备库信息(在备库上执行SELECT @@server_id)
可以发现hb每隔10秒查询主库的时间戳,因为设置了--interval=10。
他把主库传来的的时间戳与系统时间对比,得出延迟值。
---file信息为lag的信息:
默认情况:now [1m,5m,15m]的延迟,可以更改—frames参数来调整延迟平均计算时间。采样时间原理是将每个interval延迟信息记到到内存,然后根据—frames时间算平均。
PH何时开始检查延迟:不管主库的update和从库的monitor格式,都会以整秒启动,monitor还需要加上skew(延迟检查时间)。
主库:
perl /usr/bin/pt-heartbeat --user=dbadmin--password=NV7yVBpn88cg4WJCVlZd --host=10.128.6.93 --port=3308 --create-table-D test --update --interval=10 --log=/tmp/lagmysql.log --daemonize
可以发现也是createtable ,然后主库每一个interval插当前时间戳数据(where条件为主库的id)
大家注意看到log显示有9秒的延迟,是不是真的是延迟九秒呢?答案不是,因为想一下主库和从库启动heartbeat 时间有偏差,导致有可能主库在update时,过了几秒,然而还没到下个采样时间,这时从库到了采集时间,就会发现值有偏差。但是这个偏差都会小于一个inteval。总体来说对延迟校验没什么影响。
####可以看到从库新增两条信息,主库却新增一条。主从切换的时候讲会有隐患,介意从库增加—replace选项,不管主从数据有没有都会做replace操作。
三、级联运用
主从从:
M1(server id 1)->S1( server id2)->S2
M1 S1开启heartbeat更新
pt-heartbeat --daemonize -D test --update-h (M1机器)
pt-heartbeat --daemonize -D test --update-h (S1机器)
S2与m1时间戳进行对比,得出S2与M1的延迟,如果不指定master-server-id,S2会找他的直接主库进行时间戳比较(即S1)
pt-heartbeat -D test --master-server-id 1 --check (S2机器)
S2与S1时间戳进行对比,得出S2与S1的延迟
pt-heartbeat -D test --master-server-id 2 --check slave2(S2机器)
本文出自 “业精于勤而荒于嬉” 博客,请务必保留此出处http://10574662.blog.51cto.com/10564662/1852989
原文地址:http://10574662.blog.51cto.com/10564662/1852989