一、概念理解
linux中IO的类型分为四类:同步(sync)和异步(async),阻塞(block)和非阻塞(unblock)
同步:发出一个功能调用时,在没有得到结果前会一直等待,直到返回结果。
异步:当异步过程调用发出后,调用者不能立刻得到结果。在完成后,通过通知机制或回调函数来通知调用者
阻塞:调用结果返回前,当前线程会被挂起(线程进入非可执行状态,在这个状态下,CPU不会给线程分配时间片,即线程暂停运行)。函数只有在得到结果后才返回
注意:同步和阻塞是不同的,对同步调用,线程是激活的,当调用者等待的时候,线程还可以处理其它请求,而阻塞线程是会挂起的,是不会处理其它请求的。
非阻塞:在结果返回前,函数不会阻塞当前线程,而会立刻返回
同步IO和异步IP的区别在于:数据拷贝的时候进程是否阻塞。
阻塞IO和非阻塞IO的区别在于:应用程序的调用是否立即返回
二、linux下的五种I/O模型
1、阻塞I/O (blocking I/O)
2、非阻塞I/O (nonblocking I/O)
3、I/O 复用 (I/O multiplexing)
4、信号驱动I/O (signal driven I/O (SIGIO))
5、异步I/O (asynchronous I/O)
前四种都是同步,只有最后一种才是异步IO
阻塞IO模型:
进程会一直阻塞,直到数据拷贝完成
应用程序调用一个IO函数,导致应用程序阻塞,等待数据准备好。数据准备好后,从内核拷贝到用户空间,IO函数返回成功指示。阻塞IO模型图如下所示:
非阻塞IO模型
通过进程反复调用IO函数,在数据拷贝过程中,进程是阻塞的。模型图如下所示
IO复用模型
主要是select和epoll,对一个IO端口,两次调用,两次返回,关键能实现同时对多个IO端口进行监听。模型如下所示
信号驱动IO
两次调用,再次返回
首先我们允许套接口进行信号驱动IO,并安装一个信号处理函数,进程继续运行并不阻塞。当数据准备好时,进程会收到一个SIGIO信号,可以在信号处理函数中调用IO函数处理数据,模型如下所示
异步IO模型
数据拷贝时进程无阻塞,模型如下所示
5个IO模型的比较
如果这种模型难以理解,笔者利用去饭馆吃面做解释,有不符合的地方请谅解:
blocking IO:去饭馆点过面后,一直要在饭馆等待面做好
nonblocking IO:去饭馆点过面后,可以出去,但不知道什么时间面才好,要过1分钟来看下,处于忙等待,其它什么事也做不了。
multiplexing IO:这里相当于饭馆加了一个服务员,去饭馆点面不用知会老板,而是知会服务员,知会后在店里等待服务员通知面做好,在等待这段时间内,服务员也可以招待其它人员。服务员通知面做好了,自己把面端过来
signal-driven IO:在饭馆点过面后,可以出去,等面做好了,老板会打电话通知,但是面还是要自己端过来
asynchronous IO:去饭馆点过面后,可以出去,出去前指定自己坐哪个位置,等面做好了,老板会把面端到你指定的位置,再打电话通知你
三、select、poll、epoll简介
epoll是linux所特有,而select是POSIX所规定,一般操作系统均有实现。
select:查找
select本质是通过设置或检查存放fd标志位的数据结构来进行下一步处理。缺点是:
1、单个进程可监视的fd数量被限制,即能监听端口的大小有限。
一般来说和系统内存有关,具体数目可以cat /proc/sys/fs/file-max察看。32位默认是1024个,64位默认为2048个
2、对socket进行扫描时是线性扫描,即采用轮询方法,效率低。
当套接字比较多的时候,每次select()都要遍历FD_SETSIZE个socket来完成调度,不管socket是否活跃都遍历一遍。会浪费很多CPU时间。如果能给套接字注册某个回调函数,当他们活跃时,自动完成相关操作,就避免了轮询,这正是epoll与kqueue做的
3、需要维护一个用来存放大量fd的数据结构,会使得用户空间和内核空间在传递该结构时复制开销大
poll:
poll本质和select相同,将用户传入的数据拷贝到内核空间,然后查询每个fd对应的设备状态,如果设备就绪则在设备等待队列中加入一项并继续遍历,如果遍历所有fd后没有发现就绪设备,则挂起当前进程,直到设备就绪或主动超时,被唤醒后又要再次遍历fd
它没有最大连接数的限制,原因是它是基于链表来存储的,但缺点是:
1、大量的fd的数组被整体复制到用户态和内核空间之间,不管有无意义。
2、poll还有一个特点“水平触发”,如果报告了fd后,没有被处理,那么下次poll时再次报告该ffd。
epoll:
epoll支持水平触发和边缘触发,最大特点在于边缘触发,只告诉哪些fd刚刚变为就绪态,并且只通知一次。还有一特点是,epoll使用“事件”的就绪通知方式,通过epoll_ctl注册fd,一量该fd就绪,内核就会采用类似callback的回调机制来激活该fd,epoll_wait便可以收到通知。
epoll的优点:
1、没有最大并发连接的限制
2、效率提升,只有活跃可用的FD才会调用callback函数
3、内存拷贝,利用mmap()文件映射内存加速与内核空间的消息传递。
select、poll、epoll区别总结:
1、支持一个进程打开连接数
select:32位机器1024个,64位2048个
poll:无限制,原因基于链表存储
epoll:有上限,但很大,2G内存20W左右
2、IO效率
select:IO效率低
poll:IO效率低
epoll:只有活跃的socket才调用callback,IO效率高。
3、消息传递方式
select:内核需要将消息传递到用户空间,都需要内核拷贝动作
poll:同上
epoll:通过内核与用户空间共享一块内存来实现。
本文出自 “蜗牛” 博客,请务必保留此出处http://linuxkingdom.blog.51cto.com/6334977/1654813
原文地址:http://linuxkingdom.blog.51cto.com/6334977/1654813