两种以太网 RDMA 协议: iWARP 和 RoCE
http://weibo.com/p/1001603936363903889917?mod=zwenzhang
本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics【1】的摘要。
如果 NVMe 存储系统与主机是分离的,显然需要某种 fabric 把它们连接,这样主机才能使用存储系统。目前,支持远程连接的 fabric 包括:
- RDMA 协议:底层可以是以太网( RoCE 或者 iWARP )或者 Infiniband
- Fibre Channel 协议:底层可以是 FC 网络或者以太网(FCoE)
一、为什么需要 RDMA ?
RDMA (Remote Direct Memory Access) 是一种绕过主机 (host-offload/host-bypass) 技术:一个应用(包括存储)<--发送/接收数据-->另外一个(远程)应用的内存空间。
- Source Application <-- (发送/接收、完成)队列 --> 带 RDMA 功能的网卡 <-- 可靠的网络连接 --> 带RDMA 功能的网卡 <-- (发送/接收、完成)队列 --> Target Application
![技术分享图片](http://ww4.sinaimg.cn/large/715142afgw1f0fert11zsj20gn0c2adj.jpg)
各种操作系统支持 RDMA :
- Windows Server: 从 Windows HPC Server 2008 开始支持 Network Direct userspace API ;从 Windows Server 2012 开始支持 Network Direct kernel API
- Linux: 从2004年开始,由 OpenFabrics Alliance 提供 userspace/kernel API , RHEL 和 SLES 已经自带, Ubuntu 要自己安装?
- FreeBSD 9.0+ 支持 OpenFabrics Alliance userspace/kernel API
具体来说, RDMA 技术特性带来的好处如下图所示:
![技术分享图片](http://ww1.sinaimg.cn/large/715142afgw1f0ffoaur1dj20ld07bq5e.jpg)
二、用 RDMA 发送 NVMe 写命令
![技术分享图片](http://ww3.sinaimg.cn/large/715142afgw1f0fg884k94j20en0oydi8.jpg)
三、两种基于以太网的 RDMA 协议
第一种:以太网->IP->UDP->RoCE (RDMA over Converged Ethernet) v2
第二种:以太网->IP->TCP(去掉 TCP/IP 流量控制和管理)->iWARP
![技术分享图片](http://ww4.sinaimg.cn/large/715142afgw1f0fhko9zczj20xp0kcwj0.jpg)
两种协议的供应商上台系统不一样,
![技术分享图片](http://ww2.sinaimg.cn/large/715142afgw1f0fhty6wqxj20e507kmyt.jpg)
![技术分享图片](http://ww1.sinaimg.cn/large/715142afgw1f0fi5k4yyoj20fw09dabs.jpg)
![技术分享图片](http://ww1.sinaimg.cn/large/715142afgw1f0fi4lvmwfj20eb086q4l.jpg)
【1】How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics https://www.brighttalk.com/webcast/663/185909