环境抽象层
DPDK开发者指南 - 环境抽象层
http://www.jianshu.com/p/dab2ab98f779
DPDK的创造的环境抽象层(EAL, Environment Abstraction Layer)主要负责对计算机底层资源(如硬件和内存空间)的访问,并对提供给用户的接口实施了实现细节的封装。其初始化例程决定了如何分配这些资源(PCI设备、计时器、控制台等)。
EAL提供的典型服务包括:
-
加载和启动DPDK:DPDK及其应用程序会被链接为单一应用,因此需要通过某种方式进行加载DPDK。
-
核关联/分配过程:EAL提供了将执行单元分配给特定核并创建执行实例的机制。
-
预留系统内存:EAL为预留不同的内存区域提供便利,例如用于设备交互的物理内存区域。
-
抽象PCI地址:EAL提供了访问PCI地址空间的接口。
-
跟踪和调试功能:日志、堆栈转储等。
-
实用的功能:libc中所没有提供的自旋锁和原子计数器。
-
CPU功能识别:在运行时确定CPU是否支持特定功能,确定当前CPU是否支持编译产生的二进制指令集。
-
中断处理:向特定中断源注册/注销回调的接口。
-
时钟功能:用于设置/删除在特定时间运行的回调函数接口。
轮询模式驱动
DPDK包括1Gb,10Gb,40Gb和半虚拟化抽象层的轮询模式驱动(PMD, Poll Mode Driver)。PMD由用户空间的特定的驱动程序提供的
API组成,用于对设备和它们相应的队列进行设置。抛弃了基于中断的异步信号发送机制为该架构带来很大的开销节省。避免中断性能瓶颈是DPDK提升数据包处理速度的关键之一。
DPDK环境为数据包处理应用考虑了两种模型:运行至完成(run-to-completion)模型和管道(pipeline)模型。在运行至完成模型中,一个API向某个特定端口的接收描述符环轮询以接收数据包。接着这个数据包在同一个核上被处理,之后被一个发送用API放到端口的传输描述符环上;在管道模型中,一个核心会通过API对一个或多个端口的接收描述符环进行轮询,数据包通过环被接收和传递给另一个核心,然后在这个核心上被处理,之后可能被发送用API放到端口的传输描述符环上。
运行至完成是一个同步模型,每个指派给DPDK的逻辑核心执行如下所示的循环:
-
通过PMD接收用API来提取输出数据包
-
根据转发,一一处理收到的数据包
-
通过PMD发送用API发送输出数据包
相反,管道模型是一个异步模型,有的逻辑核心只执行数据包提取,而有的只执行处理,收到的数据包在这些逻辑核心之间通过环来传递。提取核心执行如下的循环:
-
通过PMD接收用API来提取输出数据包
-
通过队列提供数据包给处理核心
处理核心执行如下的循环:
-
从队列中提取数据包
-
根据重传(如果被转发)处理数据包
为了避免不必要的中断性能瓶颈,执行环境禁止任何异步通知机制的使用。在任何需要或合适的时候,异步通信都应尽可能采用环的方式。
在多核环境中避免锁竞争是一个重要的问题。为了处理这个问题,PMD被设计为可以尽可能地在单核私有资源下工作。例如,PMD为每个核心每个端口提供一个单独的队列。同样的,每个端口的接收队列只会被指派给唯一一个逻辑核心并接收它的轮询。
http://www.jianshu.com/p/6d86fabb78d6
Malloc Library
提供分配任意大小内存的API。
http://www.jianshu.com/p/d69d8511cf63
Ring Library
提供对一种特殊的链表队列的管理,具有先进先出、定长、无锁、并发入/出队等特性。
优点:工作更快,实现简单,适用于块数据的入/出队;
缺点:定长、环多导致内存占用增加。
一个简单的环结构
Mempool Library
内存池用于分配固定大小的对象。在DPDK中内存池用名字区分,并用环来存储未使用的对象。
http://www.jianshu.com/p/d69d8511cf63
Mbuf Library
用于分配和释放缓冲区给DPDK应用来存储缓存信息,使用上述的内存池来存储。
一个单段缓冲区
http://www.jianshu.com/p/7546211cff62
IVSHMEM Library
为在虚拟机与主机或虚拟机间的零拷贝数据共享提供便利,得名于使用了
QEMU的IVSHMEM机制。
Link Bonding Poll Mode Driver Library
纯软件函数库,允许多个PMD组合为单个逻辑PMD,类似于在linux中将多个网络接口组合为一个逻辑接口。
组合PMD
Timer Library
为DPDK执行单元提供时间服务以实现反馈函数的异步执行。时钟有单次工作的也有周期工作的,可载入一个核心上的时钟后在另一个上执行。时钟提供很高的精度,也可以在编译时禁用以提高性能。
http://www.jianshu.com/p/1c1f840913ca
Hash Library
http://www.jianshu.com/p/4db3afc630d6
LPM Library
为32位关键码实现的
最长前缀匹配表查找方法。用于在IP转发应用中找到最合适的路由匹配。
LPM6 Library
即LPM for IPv6,为128位关键码实现的最长前缀匹配表查找方法,用于在IPv6转发应用中找到最合适的路由匹配。
Packet Distributor Library
用于流量的动态负载均衡问题。使用时,使用中的逻辑核心会被考虑为两种角色:其一是一个分配器核心,负责负载均衡或数据包分配;其二是一群工人核心,负责从分配器接收数据包并对它们进行处理。
数据包分发模式
http://www.jianshu.com/p/3d463fe5e1ad
Reorder Library
用于根据序号对缓冲区重排序。应用于上述的数据包分发中。
http://www.jianshu.com/p/7fd33c1b19d2
IP Fragmentation&Reassembly Library
实现IPv4和IPv6数据包的分片和重新组装。
http://www.jianshu.com/p/f0ec711bf322
Vhost Library
实现用户空间的虚拟主机驱动。同时支持vhost-cuse(字符设备)和vhost-user(套接字服务器)。它也为客户机中相应的半虚拟化设备创造,管理,删除虚拟主机设备(creates, manages and destroys vhost devices for corresponding virtio devices in the guest)。
Multiprocess Support
多进程支持。用于允许一系列DPDK进程以透明的方式同时工作在Intel架构上。
Kernel NIC Interface
内核网卡接口。允许用户空间应用进入Linux控制平面。该接口较现有的Linux TUN/TAP接口更快,允许用标准Linux网络工具(如ethtool,ifconfig,tcpdump)对DPDK端口进行管理,还提供了到内核网络栈的接口。
http://www.jianshu.com/p/73939c2cab40
Quality of Service Framework
QoS(服务质量)架构。包括带QoS支持的数据包管道、分级调度(Hierarchical Scheduler)、丢包器(dropper)、流量计量(traffic metering)。
DPDK编程指南 QoS框架
http://www.jianshu.com/p/8fc89321a886
http://www.jianshu.com/p/bd31eb40c6c4
Power Management
能源管理。允许用户空间应用通过调整CPU频率或进入不同的C-state来节省电量。
http://www.jianshu.com/p/54ee270247a8
Packet Classification&Access Control
数据包分类与准入控制。用以基于一系列规则对输入的数据包进行分类。
DPDK ACL算法介绍
http://www.jianshu.com/p/0f71f814d73e
Packet Framework
数据包分组架构。设计功能包括:
-
为建造复杂的数据包处理管道提供标准方法
-
为相同的管道程序块提供在纯软件和硬件加速这两种实现间切换的能力
-
在灵活性和性能间找到最佳的折中方案
-
提供逻辑上类似于Open Flow(
SDN核心技术)的架构。
Port Hotplug Framework
端口热插拔架构。允许DPDK应用在运行时接入和弹出端口。这需要内核对PCI热插拔功能的支持。