标签:error 数据传输 分享 连接服务器 非对称加密 机房 中间 工具 完成
互联网+时代,消息量级的大幅上升,消息形式的多元化,给即时通讯云服务平台带来了非常大的挑战。高并发的IM系统背后究竟有着什么样的架构和特性
最右边列出的是从服务层上单独列出来的更重要的功能,包括与开发者应用的第三方数据同步,个性化的内容审核支持,超大群服务,登陆登出事件日志,漫游消息和云端消息历史功能,推送服务等等。
通过以下这张简化后的部署拓扑图可以对云信整体技术体系的有初步了解。最右边是客户端,客户端通过LBS服务获取到网关接入点列表,再与Link和WebLink这类长连接服务器建立起长连接,并进行RPC操作,所有来自客户端的请求都会通过路由层转发到后端的APP层,APP层实时处理并下发同步请求的处理结果,并把一些异步任务通过队列服务送到异步任务中,这些异步服务如大群消息的发送,推送服务,云端历史消息的存储和第三方的数据抄送同步服务等;在最下面的API接口上也是类似,API直接提供给第三方的服务器调用请求,API后端是各种独立的业务,如回拨电话,短信等;同样的所有的API后端业务请求也会产生相应的日志;和APP上的日志样,这些日志都会被通过日志采集平台收集到大数据平台中,一方面这类数据会存储到HDFS上用于作为数据统计分析的数据源;另一方面会被导入到Hbase等数据仓库中,用于提供日志检索和二次分析。
即时通讯功能中最重要的连接管理服务怎么做?消息快速到达的前提是客户端和服务器之间保持了稳定的连接;可以理解为奠定云信服务稳定性的基石。网关接入层需要解决的最重要的问题是什么?核心依然是稳定,安全和快速。
如何保证稳定?
网易云信SDK采用长连接机制来实现,并且由心跳的方式来检测断线和自动做重连,同时云信的SDK对移动网络等弱网环境非常多的优化工作,对移动端/PC端使用TCP来连接客户端与服务器,对与Web端使用socketIO协议,实现长连接的同时解决浏览器的兼容性问题;
如何实现安全?
云信要求所有在公网传输的数据都必须被加密;在SDK与服务器的连接建立过程中有一个复杂的秘钥协商过程,首先客户端需要生成一个一次性使用的加密秘钥,并使用非对称加密方式将这个秘钥加密之后传给服务器,加密数据会被服务器解密,之后该加密秘钥被保留在该长连接的会话信息中,数据来往均使用该秘钥加密,这是一个流式加密,可以有效防止中间人攻击和数据包回放等攻击手段。
如何保证快速?
首先是在网关接入点的选择上,借助LBS服务可以帮助客户端寻找到最适合自己的网关接入点,比如从ip等信息判断到的物理距离最近节点,其次在连接建立之后,长连接的机制可以极大提升消息上下行的速度,并且在数据传输过程中,云信会对数据包压缩传输,降低网络开销来升消息收发的速度;对频繁的前后台切换和重登陆这种移动客户端场景,SDK提供自动登录和重连等机制,即在UI界面起来的同时已经提前把消息通道建立;在接入网关的选择策略中,通过并行来提升连接建立的速度。
SDK接入的第一步是先请求LBS服务,获取可以进入的接入网关地址列表,LBS服务会根据多种策略条件来给客户端分配地址,常见的条件如下:
在从LBS服务请求到接入网关地址之后,客户端会按列表中的地址依次尝试建立连接;如果严格按照这样的顺序,那客户端建立连接的过程就会偏慢,为了加速接入过程,实际上在操作时,SDK都会使用本地缓存的最后一次LBS请求返回的地址列表来建立连接,同从LBS上拿一次新的地址列表缓存在本地,以备下次使用;当列表中的所有地址在尝试过一遍均失效,则会使用默认的link地址来建立连接;默认地址也失败是会出现415或者408这种网络错误码;
在获取到目标地址之后就会尝试建立TCP长连接,连接建立之后就会与服务器协商加密秘钥,并发出第一个鉴权包,鉴权完成之后这个长连接就是一个安全有效的连接,客户端可以发起后续的RPC请求;服务器也可以往这个连接上下发消息通知;如果秘钥协商失败或者鉴权失败,这个连接就会被认为是一个非法的连接请求,服务器会强制断开;
最后聊一下加速节点的问题,为了实现连接的快速,在网关接入点的分配时会优先距离该客户端最近的节点;这里将的加速节点就是为了更靠近用户提供的一种特殊节点。
加速节点的原理背景是运营商提供给个人用户的线路,不管是移动网络还是有线网络,其质量和IDC中心之间的网络总是有差异的;如果将整个用户链路中的关键路径替换成IDC之间的网络线路,那么对提升连接的稳定性和速度是有帮助的。
假设一个处于美国的客户通过手机网络访问位于杭州的一个网关接入点,由于客户端所在的网络是一个移动网络,直连到杭州服务器需要经过的链路非常长而且可能跳转的中间节点不可预期,在中国来说,还要跨越防火墙;所以直连的情况大部分可能就是无法连接,或者连接之后频繁断线。
我们提供了多层的加速节点:加入了加速节点之后,用户的整体链路中原来不可预期的那段链路都换成了质量较好的线路,用户直连到本地的加速节点的网络往往就会好很多。
下面说说不同的投递模式对消息送达效率的影响:
问题一:怎么让消息投递并发能力倍增?
在这张图中,上半部分表示的是一个点对点型的Link服务器,当发送者A发送一条消息之后,通过Link这条消息提交到APP中处理,APP中查询到该消息接收者B所在的Link服务器是Link y,于是向Link y服务器下发一条下行通知包,Link y上再找到用户B对应的长连接并将通知下发到客户端;这种模式下,所有的接入点Link对于所有的用户来说都是对等的,他可以接入到任何一个服务器中,任何消息的发送都必须在业务层查询到目标接收者所在的Link服务器,并往相应的Link服务器下发通知包,如果是一次群发行为,那就需要在业务APP上把所有群内的成员所在的Link列表都查询一遍;这是一个比较耗时的操作;并且是随着消息接收成员的数量不断上升开销不断增大;所以如果是需要往聊天室内发送消息,由于聊天室内的成员数量非常庞大,这种模式很快就会遇到性能瓶颈,消息投递的延时会非常严重;
对于广播型的Link服务器,云信在分配接入点时首先遵循一个原则,那就是同个聊天室内的成员在分配聊天室时,尽量分配在同一组接入点上;在Link上维护了每个房间内所有的成员的长连接集合;而在App上维护的不再是特定用户和Link之前的映射关系,而是维护了特定房间分配的Link的集合;于是在任何一个成员发出一条聊天室广播消息之后,消息通过link上行到App,App只要找到该聊天室已经分配的Link地址列表,往每个Link上下发一个广播消息,Link在收到下行的广播消息之后再在本地做广播分发;这个效率比点播的模式高出了不止一个数量级;
问题二:怎么解决单节点的性能瓶颈?
在讲完了点对点型和广播型这两种Link的区别之后;云信再回头来看看另外一类基于socket.io实现的weblink的代理方案在云信中的演变优化过程;
在这之前需要再强调下WebLink中两个关键点,首先WebLink是基于Socket.io协议的,为了保证数据通道的可靠,云信需要使用Https来对通道加密,其次由于是Https的请求所以必须提供独立的域名。
图一中显示的是最早的方案,后端Weblink提供连接,并实现SSL加密,多个节点前面通过LVS做代理,域名绑定在LVS代理之上,LVS代理之上再做Keepalived方案来保证HA;这种方案对外暴露的域名只有一个,而内部实际有很多的节点,扩容对外也是透明的;Web客户端在连接时只需要直连这个唯一域名就可以,对于单一产品来说这种方式最简便快捷,客户端可以绕过地址分配的过程;缺点也集中在单一出口,如果这个单一出口受到DDOS攻击,只能通过域名换绑来规避,而域名换绑需要一定的生效时间,带来和一些运维上的代价,其次对于云信这种服务来说,单一出口就丧失了灵活性;所有客户直连到同一个入口,也无法实现专属服务和业务隔离,无法实现加速节点方案;
于是便有了第二种方案,这种方案借鉴了Link业务中的LBS分配的方式,还是在Weblink节点上实现SSL加密,并为每个Weblink节点分配独立域名,客户端在接入前先通过LBS服务来分配到合适的接入点;这种方案好处就是提供了更大的灵活性,随时可以给集群扩容,也可以动态调整特定应用的接入点地址,也提供做加速节点的可能性;但是这种方案的问题是每个节点都是单点,而且节点内还是需要做SSL编码,由于java的SSL对cpu资源开销比较大,在突发用户流量是会影响单个节点的服务能力;
于是又有了第三种方案,这种方案前端使用Nginx做七层代理,并在Nginx配置SSL和域名绑定,后端可以同时使用一组Weblink;由于使用了Nginx,在端口的分配逻辑上也更加科学,提高了运维的便捷性;最后云信就得到了目前在使用的一个组合方案,前端还是通过LBS服务来为SDK分配接入点,以此提供灵活性;后端使用多个Nginx集群做代理集群,每个集群分组的性能都得到了提高。
前面重点介绍了云信在客户端接入层的实现和接入点的管理上使用的一些方法,通过这些技术手段为IM服务建立了一条稳定可靠的消息通道,现在来聊聊在业务层做的服务化和高可用上面的工作。
网关接入层负责客户端长连接的维护和管理,所有的接入节点甚至可以是无状态的对等节点,只负责客户端与服务器之间请求的传递的转发,并优化转发效率;而真正的业务处理逻辑还是需要有业务层来实现。
业务层需要处理大量请求并负责和DB,缓存,队列,第三方接口等组件的交互,其稳定性,可用性和扩展能力直接影响了整个云服务的质量;为了使业务层具有更好的弹性,云信在网关接入层和业务层之间引入了一个路由层来解耦;业务节点在上线之后会将自己注册到服务中心,路由节点会转接网关层的请求包,并从服务节点中挑选匹配的节点分发请求;这种三层架构使系统整体具有更好的弹性。
为了提高业务的可用性,云信会将业务节点分布到分属于不同网络的环境中,正常情况下可以同时提供服务,一旦其中一个环境的网络或者基础设施出现故障,就可以快速得通过路由层来将故障集群下线。
灵活支持灰度升级模式,云信可以将其中部分业务节点升级,然后通过路由层的配置将指定的用户流量导入到新升级的节点中;
专属服务的灵活支持,对于一些对资源独占需求比较强烈的客户,云信可以通过路由层将该客户应用下的所有流量导入到独立的集群中。
标签:error 数据传输 分享 连接服务器 非对称加密 机房 中间 工具 完成
原文地址:https://www.cnblogs.com/xiyunjava/p/9247724.html