阿里面试:NIO为什么会导致CPU100%?

nio,cpu100 · 浏览次数 : 0

小编点评

**Java I/O 类型** 1. **BIO**(Blocking I/O,阻塞 I/O):在 JDK 1.4 之前唯一的 I/O 类型,开发简单,但性能有限。 2. **NIO**(Non-blocking I/O,非阻塞 I/O):可以处理多个 IO 操作并提高性能。 3. **AIO**(Asynchronous I/O,异步 I/O):可以实现当线程发起一个 IO 操作后,可以直接返回,无需等待 IO 操作完成。 **Epoll 问题** Epoll 是一个用于多路复用技术的多线程 I/O 解决方案,在 Java 中使用 NIO 时会出现空轮询的问题。空轮询指的是 Selector 轮询结果为空,但 Selector 仍然不断轮询,导致 CPU 使用率 100%。 **解决空轮询的方法** 1. **升级 Java 版本:**由于 Oracle 和 OpenJDK 团队已修复该问题,使用最新的 Java 版本可以减少遇到空轮询的问题。 2. **使用第三方库:**例如 Netty,它通过主动检测和处理空轮询情况,当检测到可能的空轮询时,会采取措施如临时增加 Selector 的等待时间,或者重建 Selector,以此来避免 CPU 资源的浪费。 3. **使用缓存:**缓存中间结果可以减少网络访问,降低空轮询的可能性。 4. **优化代码:**例如使用缓存、优化 I/O 操作,以及减少线程创建和关闭的次数。

正文

在 Java 中总共有三种 IO 类型:BIO(Blocking I/O,阻塞I/O)、NIO(Non-blocking I/O,非阻塞I/O)和 AIO(Asynchronous I/O,异步I/O),它们的区别如下:

  1. 在 JDK 1.4 之前,只有 BIO 一种模式,其开发过程相对简单,新来一个连接就会创建一个新的线程处理,但随着请求并发度的提升,BIO 很快遇到了性能瓶颈。
  2. 所以在 JDK 1.4 以后开始引入了 NIO 技术,NIO 可以在一个线程中处理多个 IO 操作,提高了资源的利用率和系统的吞吐量。
  3. 而到了 JDK 1.7 发布了 AIO 模型,它可以实现当线程发起一个 IO 操作后,可以直接返回,无需等待 IO 操作完成。操作系统会在整个 IO 操作完成后,通过回调函数通知应用程序。

1.空轮询和CPU100%

然而,随着 NIO 逐渐使用,人们却发现了 NIO 的一个经典问题,也就是臭名昭著的 Epoll(多路复用实现技术)空轮询的问题。

空轮询的问题是指,在 Linux 系统下,使用 Java 中的 NIO 时,即使 Selector(多路复用器)轮询结果为空,也没有 wakeup 或新消息要处理时,NIO 依旧会进行空轮询,导致 CPU 一直上升,最终造成 CPU 使用率 100% 的问题。

该 BUG 相关可以参见以下链接:

2.空轮询的原因

空轮询产生的原因可以在 https://bugs.java.com/bugdatabase/view_bug.do?bug_id=6670302 上找到答案,例如以下就是一个经典的 bug 复现场景:

A DESCRIPTION OF THE PROBLEM :
The NIO selector wakes up infinitely in this situation..
0. server waits for connection
1. client connects and write message
2. server accepts and register OP_READ
3. server reads message and remove OP_READ from interest op set
4. client close the connection
5. server write message (without any reading.. surely OP_READ is not set)
6. server's select wakes up infinitely with return value 0

也就说,当连接出现了 RST(强制连接关闭),因为 poll 和 epoll 对于突然中断的连接 Socket 会对返回的 eventSet 事件集合置为 POLLHUP 或者 POLLERR,eventSet 事件集合发生了变化,这就导致 Selector 会被唤醒,进而导致 CPU 100% 问题,其根本原因就是 JDK 没有处理好这种情况,比如 SelectionKey 中就没定义有异常事件的类型,导致异常无法被捕捉和处理,从而一直空轮询。

3.如何解决空轮询?

NIO 空轮询可能会导致 CPU 100% 的解决方案通常有以下两种:

  1. 升级 Java 版本:早期的 JDK 版本中(JDK 1.7 之前),这个 bug 较为常见,但后续的 JDK 更新中,Oracle 和 OpenJDK 团队已经着手解决了这一问题,确保使用最新的 Java 版本可以减少遇到此问题的风险。但网上依然有人发现即使在 JDK 1.8 中,使用原生的 NIO 依然会发生空轮询的问题,只是发生的概率变低了而已。
  2. 使用第三方库:对于无法升级 Java 版本的情况,或担心新版本的 JDK 中依然存在空轮询问题的团队可以考虑使用已经解决了此问题的第三方库,如 Netty。Netty 通过主动检测和处理空轮询情况,当检测到可能的空轮询时,会采取措施如临时增加 Selector 的等待时间,或者重建 Selector,以此来避免 CPU 资源的浪费。

课后思考

说说 Netty 解决空轮询的具体实现细节?为什么重建 Selector 可以避免空轮询呢?

本文已收录到我的面试小站 www.javacn.site,其中包含的内容有:Redis、JVM、并发、并发、MySQL、Spring、Spring MVC、Spring Boot、Spring Cloud、MyBatis、设计模式、消息队列等模块。

与阿里面试:NIO为什么会导致CPU100%?相似的内容:

阿里面试:NIO为什么会导致CPU100%?

在 Java 中总共有三种 IO 类型:BIO(Blocking I/O,阻塞I/O)、NIO(Non-blocking I/O,非阻塞I/O)和 AIO(Asynchronous I/O,异步I/O),它们的区别如下: 在 JDK 1.4 之前,只有 BIO 一种模式,其开发过程相对简单,新来一个

阿里面试:说说自适应限流?

限流想必大家都不陌生,它是一种控制资源访问速率的策略,用于保护系统免受过载和崩溃的风险。限流可以控制某个服务、接口或系统在一段时间内能够处理的请求或数据量,以防止系统资源耗尽、性能下降或服务不可用。 常见的限流策略有以下几种: 令牌桶算法:基于令牌桶的方式,限制每个单位时间内允许通过的请求量,请求量

【阿里云X博客园】参与征文赢面试绿通资格!还有特别福利哦!

阿里云联合博客园发起技术实践征文比赛,我们诚挚邀请你的参加,告诉我们你在哪个领域遇到了问题,你是如何思考解决的。无论你关注的是什么技术栈,我们都相信你的故事有它独到的价值。博客园作者发文,除享活动奖品,还将获得阿里云社区纪念手办一枚,数量有限,快来参加吧

3年Java阿里跳字节的面试心得总结

中厂->阿里->字节,成都->杭州->成都 系列文章目录和关于我 0.前言 笔者在不足两年经验的时候从成都一家金融科技中厂跳槽到杭州阿里淘天集团,又于今年5月份从杭州淘天跳槽到成都字节。自认为自己在面试这方面有一点心得,处于记录和分享的目的便有了此文,此文纯主观,也许对3年社招的同学有所帮助。 本文

又跳槽!3年java经验offer收割机的面试心得

中厂->阿里->字节,成都->杭州->成都 系列文章目录和关于我 0.前言 笔者在不足两年经验的时候从成都一家金融科技中厂跳槽到杭州阿里淘天集团,又于今年5月份从杭州淘天跳槽到成都字节。自认为自己在面试这方面有一点心得,处于记录和分享的目的便有了此文,此文纯主观,也许对3年社招的同学有所帮助。 本文

又跳槽!3年Java经验收割成都大厂的面试心得(干货满满&文末有福利)

中厂->阿里->字节,成都->杭州->成都 系列文章目录和关于我 0.前言 笔者在不足两年经验的时候从成都一家金融科技中厂跳槽到杭州阿里淘天集团,又于今年5月份从杭州淘天跳槽到成都字节。自认为自己在面试这方面有一点心得,处于记录和分享的目的便有了此文,此文纯主观,也许对3年社招的同学有所帮助。 本文

上周热点回顾(5.20-5.26)

热点随笔: · 开源低代码框架 ReZero API 正式版本发布 ,界面操作直接生成API (阿妮亚)· 【阿里云X博客园】参与征文赢面试绿通资格!还有特别福利哦! (博客园团队)· 聊聊一个差点被放弃的项目以及近期的开源计划 (程序设计实验室)· OpenAI“杀疯了”,GPT–4o模型保姆级使

聊聊Spring Cloud Alibaba解决方案组件

在java的微服务解决方案中,最先出现目前应用比较多的就是spring cloud netfix系列,但是随着阿里的强劲支持,spring cloud alibaba解决方案逐渐可以替代前者,当然dubbo也是不容小觑的。之前面试几家公司应用的都是spring cloud alibaba,随着我自己

秋招还没Offer怎么办?

如果你是双非院线、没有实习经历、没有出众的技术(算法没刷一千道,也没做过 Spring Cloud 项目)、现在还没有面试(或只有少量的面试)、并且目前还没有 Offer,那么恭喜你,你和目前大部分同学的状态是一样的。 相信我,你并不孤单。 有人会说:“瞎扯,你去看牛客,别人都在为选阿里还是字节而发

[转帖]看一遍就理解:零拷贝原理详解

https://juejin.cn/post/7043948967729561607 前言 大家好,我是程序员田螺。 零拷贝是老生常谈的问题啦,大厂非常喜欢问。比如Kafka为什么快,RocketMQ为什么快等,都涉及到零拷贝知识点。最近技术讨论群几个伙伴分享了阿里、虾皮的面试真题,也都涉及到零拷贝