[转帖]350W+ CPU、700W+ GPU功耗:冷板和浸没式液冷哪个更有前途?

350w,cpu,700w,gpu,功耗,浸没,液冷,哪个,前途 · 浏览次数 : 0

小编点评

**液冷技术方面,Intel代号Sapphire Rapids的下一代Xeon处理器最高TDP将达到350W,AMD EPYC4功耗也是同级水平。** 液冷技术是将冷水或液体的流动用于散热电脑的技术。液冷技术可以为计算机提供更好的冷却效果,并可以提高性能。 **冷板式液冷的特点如上图,我就不在此展开了。** **冷板和浸没式液冷哪个支持功率密度更高?** 冷板式液冷的能力最强,支持功率密度接近900W。浸没式液冷的能力相对较低,支持功率密度约为650W。

正文

https://aijishu.com/a/1060000000363530

 

 

液冷技术方面我算不上专业,因为最近在一篇博客中看到不错的资料,这里分享给大家顺便做点讨论。

image.png

大家应该知道,Intel代号Sapphire Rapids的下一代Xeon处理器最高TDP将达到350W,AMD EPYC4功耗也是同级水平。上图中时间点应该是早些时候标的,众所周知Sapphire Rapids跳票了,所以AMD这一代应该会在前面正式上市。

从风冷350W到冷板式液冷的600W

image.png

如上图,上半部分的蓝色梯形指的风冷。在ASHRAE A2(最高35℃进风温度)环境下,标准2U风冷服务器可以支持2颗350WTDP CPU,1U通用型服务器大约在300W左右,而定制化服务器甚至1U也能做到350W(因为可以根据客户自身需求做取舍)。如果环境温度放宽到ASHRAE A3(最高45℃进风),相应支持的散热功率也会降低。另外就是像2U 4节点这样的高密度机型,风冷的瓶颈会更明显,这也是HPC高性能计算用户更早青睐液冷的原因。

扩展阅读《1U双路风冷350W?点评方升服务器散热设计

冷板式液冷标准化:PowerEdge 15G服务器散热杂谈

再看功耗轴下面的绿色部分,也就是冷板式液冷(Direct Liquid Cooling),支持600W以内的CPU应该问题不大。当然这里还有一个冷却液温度的区别,比如ASHRAE W32(应该指液体注入时的温度为32℃)的表现就要比ASHRAE W45更好,后者的散热能力看来还超不过400W。

image.png

冷板式液冷的特点如上图,我就不在此展开了。

image.png

这是比较先进的DLC液冷结构示意图。包括冷板、微通道、冷却液流动的路径等。现在的冷板式液冷技术距离5-10年前应该有些改进,也包括漏液检测方面。

冷板和浸没式液冷,哪个支持功率密度更高?

image.png
上图仅供参考。纵坐标是CPU/GPU等发热大户的功耗,Immersion 1P(单相浸没式液冷)可以支持到400W;2P(双相浸没式液冷)可达更高的650W;而DLC冷板能力最强——接近900W了。

根据我以前有限的认识,浸没式液冷可以实现更低的PUE,也就是用于散热产生的额外能耗较小,虽然成本较高、对数据中心设计改动更大,但密度支持上真的不如冷板式液冷吗?

image.png

这张图来自网上找到的资料,在一套采用多种冷却技术的4.5MW数据中心融合部署中,冷板液冷的每机架利用密度为40U/Rack,浸没液冷应该是利用定制机柜达到48U。每机架的功率密度,冷板液冷的7.2kW并没有看出比风冷散热的明显优势?而浸没液冷则高达18.72kW/Rack。

但我们不能只看密度,因为如果只是在当前的风冷服务器上把CPU散热器更换为冷板式液冷,确实不见得能提高部署密度,而还有PUE的改善(因为风扇方面的耗电、成本减少)。如果要提高计算密度,一个是等CPU功耗上升,另一个就是设计高密度的系统。

OCP OAI SYSTEM液冷设计:支持8个1000W OAM模块

image.png

上图引用自《OCP OAI SYSTEM LIQUID COOLING GUIDELINES》,这个结构上接近2U 8xGPU的扩展机箱,从冷热水管不难看出,该原型机箱采用了冷板式液冷设计。

在3年前的《后IB时代的GPU服务器:48V和液冷哪个先行?》中,我曾经引用当时OCP OAM的资料,风冷最高支持440W的计算模块。有朋友可能会问:今天GeForce RTX 4090显卡不是已经用风冷散热器做到450W了吗?别忘了它那个散热器的尺寸,数据中心可是要高密度部署的。

image.png

我们知道目前NVIDIAH100的功耗为700W(扩展阅读:《NVIDIA H100 GPU架构白皮书:2倍功耗SMX只比PCIe 5计算卡快25%》),如今OCP OAI系统设计的散热支持已经达到8个1000W SMX模块。下面我们看一下原型机的温度测试结果:

image.png

图表纵坐标是OAM(GPU等)的TTV Tcase温度,横坐标则是系统流速(冷却液的LPM)。当供应给系统的冷却液为30℃时,我们看到OAM 1-4的温度在45-50℃之间,而OAM 5-8在液体流速低时超过了55℃。如果有朋友还没理解,请看下图中的2种设计:

image.png
我们上面介绍的OAI系统采用了4x2冷板(即水管)回路,蓝色即低温液体先流入OAM 1-4上面的冷板,(吸热升温一些)然后再流经OAM 5-8的冷板。这就像风冷散热中一排气流先后经过2个CPU的散热片。

相比之下,8x1冷板回路Layout则将低温液体直接平均分配到8个OAM,这样不会有一半OAM温度偏高的问题,但包括水管在内的成本应该也会高一些。

看这个2U机箱8000W的设计,我想冷板式液冷短时间内应该不会遇到瓶颈。至于国内外对浸没式液冷的态度有些不同,听说有PUE政策方面的原因。技术上没有十全十美的,我个人短期内还是看好冷板的普及;浸没式是个双刃剑,具体的我不够权威,就不在这里讨论更多了…

作者: 唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

与[转帖]350W+ CPU、700W+ GPU功耗:冷板和浸没式液冷哪个更有前途?相似的内容:

[转帖]350W+ CPU、700W+ GPU功耗:冷板和浸没式液冷哪个更有前途?

https://aijishu.com/a/1060000000363530 液冷技术方面我算不上专业,因为最近在一篇博客中看到不错的资料,这里分享给大家顺便做点讨论。 大家应该知道,Intel代号Sapphire Rapids的下一代Xeon处理器最高TDP将达到350W,AMD EPYC4功耗也

[转帖]350万IOPS:NVMe SSD RAID卡性能测试解析

https://aijishu.com/a/1060000000225602 最近,有不止一位读者朋友希望我分享NVMe RAID卡的性能表现。记得在5年前,我写过一篇《存储极客:服务器SSD RAID__性能速查手册》,当时还是SAS和SATA SSD做阵列,而我当时在文章末尾写了下面这句: 时间

[转帖]

Linux ubuntu20.04 网络配置(图文教程) 因为我是刚装好的最小系统,所以很多东西都没有,在开始配置之前需要做下准备 环境准备 系统:ubuntu20.04网卡:双网卡 网卡一:供连接互联网使用网卡二:供连接内网使用(看情况,如果一张网卡足够,没必要做第二张网卡) 工具: net-to

[转帖]

https://cloud.tencent.com/developer/article/2168105?areaSource=104001.13&traceId=zcVNsKTUApF9rNJSkcCbB 前言 Redis作为高性能的内存数据库,在大数据量的情况下也会遇到性能瓶颈,日常开发中只有时刻

[转帖]ISV 、OSV、 SIG 概念

ISV 、OSV、 SIG 概念 2022-10-14 12:29530原创大杂烩 本文链接:https://www.cndba.cn/dave/article/108699 1. ISV: Independent Software Vendors “独立软件开发商”,特指专门从事软件的开发、生产、

[转帖]Redis 7 参数 修改 说明

2022-06-16 14:491800原创Redis 本文链接:https://www.cndba.cn/dave/article/108066 在之前的博客我们介绍了Redis 7 的安装和配置,如下: Linux 7.8 平台 Redis 7 安装并配置开机自启动 操作手册https://ww

[转帖]HTTPS中间人攻击原理

https://www.zhihu.com/people/bei-ji-85/posts 背景 前一段时间,公司北京地区上线了一个HTTPS防火墙,用来监听HTTPS流量。防火墙上线之前,邮件通知给管理层,我从我老大那里听说这个事情的时候,说这个有风险,然后意外地发现,很多人原来都不知道HTTPS防

[转帖]关于字节序(大小端)的一点想法

https://www.zhihu.com/people/bei-ji-85/posts 今天在一个技术群里有人问起来了,当时有一些讨论(不完全都是我个人的观点),整理一下: 为什么网络字节序(多数情况下)是大端? 早年设备的缓存很小,先接收高字节能快速的判断报文信息:包长度(需要准备多大缓存)、地

[转帖]awk提取某一行某一列的数据

https://www.jianshu.com/p/dbcb7fe2da56 1、提取文件中第1列数据 awk '{print $1}' filename > out.txt 2、提取前2列的文件 awk `{print $1,$2}' filename > out.txt 3、打印完第一列,然后打

[转帖]awk 中 FS的用法

https://www.cnblogs.com/rohens-hbg/p/5510890.html 在openwrt文件 ar71xx.sh中 查询设备类型时,有这么一句, machine=$(awk 'BEGIN{FS="[ \t]+:[ \t]"} /machine/ {print $2}' /