https://zhuanlan.zhihu.com/p/598702329
前两天,代号Sapphire Rapids的第四代Intel Xeon Scalable处理器正式发布了,本文算是我的一点技术思考吧,顺便和大家交流下。由于我水平和手头资料都有限,目前还只能是旁观的视角,如有任何错误不足欢迎批评指正。
XCC和MCC架构——哪种Chiplet更好?
我看了几篇国外的相关报道,其中https://www.nextplatform.com/2023/01/10/the-rest-of-the-world-can-finally-get-sapphire-rapids-xeon-sps 里的2张图吸引了我:
最左边的“XCC(Extreme Core Count)”架构Intel宣传比较多,它由4个Tile“小芯片(Chiplet)”组成,15 x 4构成最多60核心。虽然上图不是很清晰,但对比我们之前就讲过的下图,不难做出对位:
- 位于4个角的蓝色部分,是每个Tile的UPI互连接口,每插槽共4个。
- 粉色部分应该是6个PCIe Gen5 x16 I/O接口,只需要其中5个就能满足每插槽80 lane吧。那么剩下的1个粉色(会不会改作x8 DMI连接PCH芯片组?),还有下面2个Tile的各1个灰色单元,为什么不激活呢?(注:虽然我不确定上图完全准确,但后面还会列出更多参考资料图)
- 红色部分即加速器(Accelerators)——每个Tile都设计有Intel QAT(QuickAssist Technology)、DLB(动态负载均衡器)、IAA(存内分析加速器)、DSA(数据流加速器)整合IP设备,但不一定都激活,这点后面继续讨论。
- 浅黄色的是DDR5内存通道,2 x 4一共没插槽8通道。
看完了XCC再看Monolithic(单体)芯片架构的MCC(Medium Core Count),它针对的是主流市场,高主频、低延时需求。
- 首先,MCC架构的UPI互连缩减至最多3个;
- 粉色的部分还是PCIe,看上去6个单元也只需使用5个x16;
- 红色加速器(Accelerators)改为集中在右上角,具体能最多支持几个QAT、DLB、IAA、DSA设备后面有讨论。
最右边的Xeon CPU Max系列,相当于在“XCC” 4 Tile架构的基础上,外接了4小片高带宽HBM内存。专门针对HPC和内存带宽敏感型应用,显然也应该不便宜。
4th Gen Intel Xeon SP “XCC”架构模块示意图
上图我也不保证一定准确。不过以此来推测,我倒是觉得之前在《单路为王?Intel Xeon W-3400、2400工作站平台预览》中的猜测——Sapphire Rapids-112L把一些UPI重定义为PCIe可能不对了?因为如果每个Tile物理上都设计了2个PCIe 5.0 x16,那实际上单插槽也可能像AMD EPYC那样达到128 lane,甚至在多处理器互连时也可以不牺牲这个?Intel会不会是为了照顾“MCC”架构(共用主板)的考虑,而统一到80 lane PCIe呢?
针对工作站的Xeon W-3400处理器,会不会也是XCC和MCC都用呢?如果那样的话,MCC的6个粉色PCIe x16不够112 lane,是不是还需要“借用”闲置的UPI?还有个问题,UPI(24x)相当于24bit并行I/O,其最新速率为16GT/s;如果切换成“串行”的PCIe Gen5 32GT/s不知是否方便。
XCC每个Tile的整合IP加速单元,都能支持QAT、DLB、IAA和DSA,所以每种设备最多都是4个;MCC架构的QAT和DLB每插槽最多2个,DSA和IAA只有1个。
写到这里,Intel和AMD(如上图)谁的Chiplet架构更好呢?应该说各有各的优点,感觉AMD的CPU die + I/O die比Intel XCC更灵活一些;而Intel MCC的内存访问、I/O性能一致性更好,可减少插槽内部的NUMA效应。
扩展阅读:《PowerEdge R7625服务器:AMD EPYC4、E3.S SSD、500W GPU支持》
Intel on Demand:是否有点太复杂了?
下面我也来聊聊这张图(原图链接https://download.intel.com/newsroom/2023/data-center-hpc/Intel-4th-Gen-Xeon_product_SKUs.jpg)。
- 首先,Xeon 84xx和94xx系列CPU都是XCC架构,64xx系列中的32核有XCC也有MCC,32核以下就都是MCC了。
- 其次,只有右上方H结尾的部分CPU型号支持4/8路扩展,主要针对内存数据库/分析/虚拟化用途。3rd Xeon的H结尾型号也是针对4/8路服务器,只不过63xxH和83xxH的Cooper Lake内核实际上比Ice Lake要早一代。
- 在左半边的通用用途CPU中,“Y”结尾的意思是支持Intel Speed Select Technology — Performance Profile 2.0(Intel SST-PP)
上图截自http://ark.intel.com,Xeon Gold 6438Y支持三种核心/主频/TDP组合设置选项,也就是说可以选择禁用部分核心来提高主频,或者进一步限制功耗。
右半边的N结尾等CPU还有“更好玩”(让人有点看不懂)的设计?比如上面这个8470N吧,都是52核300W,为啥还要区分3种基础频率呢?
- 左半边带“+”的通用SKU(Feature Plus),默认自带的DSA、QAT、DLB和IAA分别都会激活1个,更多的需要通过Intel on Demand来付费激活。其中DSA加速设备所有的第四代Xeon Scalable都至少免费带1个,这点我之前没搞太准。另外,右边H结尾和Xeon 94xx系列,以及左边的至强铜牌3408U这一款不支持Intel on Demand(即Default带多少就是多少了)。
Xeon Platinum 8460Y+可选的Intel on Demand激活模式,分为通信&存储Suite 4、分析Suite 4和SGX512三种。
Pay-as-you-go倒是没啥不合理的,只是这规则整的有点复杂吧?每款CPU都要去ark网站看看有啥不同了…
不支持Win10工作站了?
最后我再写一点花絮。在Intel网站的文档中,第四代Xeon SP看上去用于工作站时没有官方支持Win10了?(Windows 11完整兼容)不过在Server 2019 LTSC部分却也提到了Win10——大版本都是1809——如果对于12代Core桌面CPU肯定有点老,但企业级Xeon还是要做更多一点的向前兼容工作。
另外,我看到这个官方列表里的Linux系统,除了RHEL、SUSE、Ubuntu之外还出现了Alibaba Cloud Linux,是不是有点意外?在这里给马涛兄和杨勇兄他们点个赞吧!
扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage