[计算机网络]网络I/O模型

欢迎来到啾啾的博客🐱。
这是一个致力于构建完善的Java程序员知识体系的博客📚，记录学习的点滴，分享工作的思考、实用的技巧，偶尔也分享一些杂谈💬。
欢迎评论交流，感谢您的阅读😄。

引言

我们非常有必要了解I/O模型，以Java微服务为例，微服务架构中的网关Gateway与共享缓存Redis的核心设计的理解都离不开网络I/O。

5种I/O模型

当一次网络请求发生时，将会按顺序经历“等待数据从远程主机到达缓冲区”和“将数据从缓冲区复制到应用程序网络地址空间”两个阶段。
根据实现这两个阶段的不同方法，人们把网络I/O模型总结为两类、五种模型：两类是指同步I/O与异步I/O，五种是指在同步I/O中又划分出阻塞I/O、非阻塞I/O、多路复用I/O、信号驱动I/O四种细分模型以及异步I/O模型。

这里划重点，两个阶段🌟，后续5种I/O模型差异的理解基于这两个阶段的理解。
1——“等待数据从远程主机到达缓冲区”，书中这个描述理解容易有问题，如果划分成两个阶段，这个阶段的“到达”应该是“等待数据从远程主机到达缓冲区后，经由协议处理，用户进程可以安全读取的有效数据存在与内核缓冲区”。
到达缓冲区 = 数据到达——> 协议处理 ——> 数据就绪
2——“将数据从缓冲区复制到应用程序网络地址空间”
![[Pasted image 20250327130528.png]]

根据UNIX网络编程中的分类，I/O模型分为5种。

其中，同步与异步概念如下：

同步
调用端在发出请求之后，得到结果之前必须一直等待。
比如日常代码按顺序执行就是异步，等待前一行代码执行完成然后继续下一行代码。
异步
发出调用请求之后将立即返回，不会马上得到处理结果，结果将通过状态变化和回调来通知调用者。
比如使用线程处理任务，主线程继续执行当前任务，这种就是异步。

阻塞和非阻塞是针对请求处理过程而言，指在收到调用请求之后，返回结果之前，当前处理线程是否会被挂起。

以UDP recvfrom（接收数据并获取发送方地址的核心函数）操作为例，五种I/O模型解释如下。

阻塞I/O (Blocking I/O)

等待两个阶段操作都完成，即等待数据到缓冲区、等待数据从缓冲区复制到到应用程序网络地址空间的操作都完成。
阻塞期间，线程会休眠，状态切换开销大。
比如Socket编程就是阻塞I/O。
![[Pasted image 20250327125156.png]]

非阻塞I/O(Non-blocking I/O)

线程定期检查（轮询）数据是否就绪（数据是否已经从完成主机到达缓冲区），减少一阶段无效等待。
非阻塞I/O轮询检查本身也会消耗CPU资源，但可以避免线程休眠，适合一些很快就能返回结果的请求。

![[Pasted image 20250327125242.png]]

需要留意的是，二阶段复制数据 copy_to_user的内存拷贝操作仍可能引起微秒级阻塞（取决于数据量大小）。

多路复用I/O(I/O Multiplexing)

单线程监控多个文件描述符。即单一线程处理多个请求，当有任意请求完成阶段一进入就绪状态，则为其执行阶段二：开始复制数据。

![[Pasted image 20250327135551.png]]

其中监控多个文件描述符细分为select、poll、kqueue等不同实现。
虽然描述是单个线程的多路复用，但是一般并发处理的设计是“线程池+多路复用”。

信号驱动I/O(Signal-driven I/O)

内核通过信号(信号处理函数)通知就绪状态。

信号驱动I/O和异步I/O的区别在于，信号驱动是通知阶段一完成，可以开始阶段二，异步则是通知阶段二完成。

![[Pasted image 20250327140641.png]]

异步I/O(Asynchronous I/O)

全流程非阻塞，内核完成所有操作后通知。
异步I/O数据到缓冲区后，不需要由调用进程主动进行缓冲区复制数据到应用程序网络地址空间的操作，而是复制完成后由操作系统向线程发送信号。

![[Pasted image 20250327141231.png]]

高并发选择

模型	阻塞阶段	用户参与度	典型应用场景
阻塞I/O	全程阻塞	被动等待	简单客户端程序
非阻塞I/O	数据拷贝阶段	主动轮询	低并发实时系统
I/O多路复用	select阻塞，拷贝阻塞	集中管理	Web服务器（Nginx）
信号驱动I/O	仅拷贝阶段	异步通知	特殊设备监控
异步I/O	无阻塞	完全托管	高性能服务器（Proactor模式）

在高并发场景下推荐使用I/O多路复用或异步I/O模型。
相较于其他I/O模型，这两种模型没有阻塞I/O模型的休眠成本、没有非阻塞I/O模型的轮询成本、也没有信号I/O模型处理上下文切换的成本。
且多路复用I/O意味着在同样的线程数下，线程池能处理更多的请求。
而异步I/O相较于多路复用I/O则减少了通知处理次数，且多个请求不用等待一个线程延迟更低。

关于高并发场景，细讲还有多路复用优化、异步的io_uring高级特性,还有不同并发量级的选择策略等。
多路复用瓶颈：就绪事件>线程池处理能力任务堆积怎么办？
异步瓶颈：SQ（提交队列）环大小限制批量提交规模（Linux io_uring默认4096 entries）
……
等等，I/O还有很多很多可以学习，本篇先到此为止，感谢您的阅读。