链路的有效性检测

时间：2015-11-14 00:50:52 阅读：759 评论：0 收藏：0 [点我收藏+]

标签：

当网络发生单通、连接被防火墙Hang住、长时间GC或者通信线程发生非预期异常时，会导致链路不可用且不易被及时发现。

特别是异常发生在凌晨业务低谷期间，当早晨业务高峰期到来时，由于链路不可用会导致瞬间的大批量业务失败或者超时，

这将对系统的可靠性产生重大的威胁。

从技术层面看，要解决链路的可靠性问题，必须周期性的对链路进行有效性检测。目前最流行和通用的做法就是心跳检测。

心跳检测机制分为三个层面：

1) TCP层面的心跳检测，即TCP的Keep-Alive机制，它的作用域是整个TCP协议栈；

2) 协议层的心跳检测，主要存在于长连接协议中。例如SMPP协议；

3) 应用层的心跳检测，它主要由各业务产品通过约定方式定时给对方发送心跳消息实现。

心跳检测的目的就是确认当前链路可用，对方活着并且能够正常接收和发送消息。

做为高可靠的NIO框架，Netty也提供了心跳检测机制，下面我们一起熟悉下心跳的检测原理。

技术分享

图2-20 心跳检测机制

不同的协议，心跳检测机制也存在差异，归纳起来主要分为两类：

1) Ping-Pong型心跳：由通信一方定时发送Ping消息，对方接收到Ping消息之后，立即返回Pong应答消息给对方，属于请求-响应型心跳；

2) Ping-Ping型心跳：不区分心跳请求和应答，由通信双方按照约定定时向对方发送心跳Ping消息，它属于双向心跳。

心跳检测策略如下：

1) 连续N次心跳检测都没有收到对方的Pong应答消息或者Ping请求消息，则认为链路已经发生逻辑失效，这被称作心跳超时；

2) 读取和发送心跳消息的时候如何直接发生了IO异常，说明链路已经失效，这被称为心跳失败。

无论发生心跳超时还是心跳失败，都需要关闭链路，由客户端发起重连操作，保证链路能够恢复正常。

标签：

原文地址：http://www.cnblogs.com/yuyutianxia/p/4963596.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行