[转帖]关于第四代Intel Xeon Scalable的一些技术思考

关于,第四代,intel,xeon,scalable,一些,技术,思考 · 浏览次数 : 0

小编点评

**XCC和MCC架构的优劣比较：** | 特征 | XCC | MCC | |---|---|---| |核心数 | 4 | 2-8 | | PCIe lanes | 4 | 5 | | I/O性能 | 较低 | 较高 | |内存访问 | 较低 | 较高 | | 核心频率 | 更低 | 更高 | | 功耗 | 更高 | 更低 | **XCC架构的优势：** * 更低功耗 * 更高的性能 * 支持 4 个 PCIe Gen5 端口 **MCC架构的优势：** * 更高的性能 * 更多端口 * 降低 I/O wait time **结论：** 在工作站应用中，XCC架构可能更适合节省功耗的需求，而 MCC架构可能更适合需要更高的性能和更多端口的需求。 **其他信息：** * 4 代 Xeon SP 的 Win10 支持模式可能与 XCC 和 MCC 版本有所不同。 * 该图显示的 Xeon Gold 8460Y+ 支持 Intel on Demand 激活模式，但该功能可能需要额外的硬件支持。

正文

https://zhuanlan.zhihu.com/p/598702329
复制

前两天，代号Sapphire Rapids的第四代Intel Xeon Scalable处理器正式发布了，本文算是我的一点技术思考吧，顺便和大家交流下。由于我水平和手头资料都有限，目前还只能是旁观的视角，如有任何错误不足欢迎批评指正。

XCC和MCC架构——哪种Chiplet更好？

我看了几篇国外的相关报道，其中https://www.nextplatform.com/2023/01/10/the-rest-of-the-world-can-finally-get-sapphire-rapids-xeon-sps 里的2张图吸引了我：

最左边的“XCC（Extreme Core Count）”架构Intel宣传比较多，它由4个Tile“小芯片（Chiplet）”组成，15 x 4构成最多60核心。虽然上图不是很清晰，但对比我们之前就讲过的下图，不难做出对位：

- 位于4个角的蓝色部分，是每个Tile的UPI互连接口，每插槽共4个。

- 粉色部分应该是6个PCIe Gen5 x16 I/O接口，只需要其中5个就能满足每插槽80 lane吧。那么剩下的1个粉色（会不会改作x8 DMI连接PCH芯片组？），还有下面2个Tile的各1个灰色单元，为什么不激活呢？（注：虽然我不确定上图完全准确，但后面还会列出更多参考资料图）

- 红色部分即加速器（Accelerators）——每个Tile都设计有Intel QAT（QuickAssist Technology）、DLB（动态负载均衡器）、IAA（存内分析加速器）、DSA（数据流加速器）整合IP设备，但不一定都激活，这点后面继续讨论。

- 浅黄色的是DDR5内存通道，2 x 4一共没插槽8通道。

看完了XCC再看Monolithic（单体）芯片架构的MCC（Medium Core Count），它针对的是主流市场，高主频、低延时需求。

- 首先，MCC架构的UPI互连缩减至最多3个；

- 粉色的部分还是PCIe，看上去6个单元也只需使用5个x16；

- 红色加速器（Accelerators）改为集中在右上角，具体能最多支持几个QAT、DLB、IAA、DSA设备后面有讨论。

最右边的Xeon CPU Max系列，相当于在“XCC” 4 Tile架构的基础上，外接了4小片高带宽HBM内存。专门针对HPC和内存带宽敏感型应用，显然也应该不便宜。

4th Gen Intel Xeon SP “XCC”架构模块示意图

上图我也不保证一定准确。不过以此来推测，我倒是觉得之前在《单路为王？Intel Xeon W-3400、2400工作站平台预览》中的猜测——Sapphire Rapids-112L把一些UPI重定义为PCIe可能不对了？因为如果每个Tile物理上都设计了2个PCIe 5.0 x16，那实际上单插槽也可能像AMD EPYC那样达到128 lane，甚至在多处理器互连时也可以不牺牲这个？Intel会不会是为了照顾“MCC”架构（共用主板）的考虑，而统一到80 lane PCIe呢？

针对工作站的Xeon W-3400处理器，会不会也是XCC和MCC都用呢？如果那样的话，MCC的6个粉色PCIe x16不够112 lane，是不是还需要“借用”闲置的UPI？还有个问题，UPI（24x）相当于24bit并行I/O，其最新速率为16GT/s；如果切换成“串行”的PCIe Gen5 32GT/s不知是否方便。

XCC每个Tile的整合IP加速单元，都能支持QAT、DLB、IAA和DSA，所以每种设备最多都是4个；MCC架构的QAT和DLB每插槽最多2个，DSA和IAA只有1个。

写到这里，Intel和AMD（如上图）谁的Chiplet架构更好呢？应该说各有各的优点，感觉AMD的CPU die + I/O die比Intel XCC更灵活一些；而Intel MCC的内存访问、I/O性能一致性更好，可减少插槽内部的NUMA效应。

扩展阅读：《PowerEdge R7625服务器：AMD EPYC4、E3.S SSD、500W GPU支持》

Intel on Demand：是否有点太复杂了？

下面我也来聊聊这张图（原图链接https://download.intel.com/newsroom/2023/data-center-hpc/Intel-4th-Gen-Xeon_product_SKUs.jpg）。

- 首先，Xeon 84xx和94xx系列CPU都是XCC架构，64xx系列中的32核有XCC也有MCC，32核以下就都是MCC了。

- 其次，只有右上方H结尾的部分CPU型号支持4/8路扩展，主要针对内存数据库/分析/虚拟化用途。3rd Xeon的H结尾型号也是针对4/8路服务器，只不过63xxH和83xxH的Cooper Lake内核实际上比Ice Lake要早一代。

- 在左半边的通用用途CPU中，“Y”结尾的意思是支持Intel Speed Select Technology — Performance Profile 2.0（Intel SST-PP）

上图截自http://ark.intel.com，Xeon Gold 6438Y支持三种核心/主频/TDP组合设置选项，也就是说可以选择禁用部分核心来提高主频，或者进一步限制功耗。

右半边的N结尾等CPU还有“更好玩”（让人有点看不懂）的设计？比如上面这个8470N吧，都是52核300W，为啥还要区分3种基础频率呢？

- 左半边带“+”的通用SKU（Feature Plus），默认自带的DSA、QAT、DLB和IAA分别都会激活1个，更多的需要通过Intel on Demand来付费激活。其中DSA加速设备所有的第四代Xeon Scalable都至少免费带1个，这点我之前没搞太准。另外，右边H结尾和Xeon 94xx系列，以及左边的至强铜牌3408U这一款不支持Intel on Demand（即Default带多少就是多少了）。

Xeon Platinum 8460Y+可选的Intel on Demand激活模式，分为通信&存储Suite 4、分析Suite 4和SGX512三种。

Pay-as-you-go倒是没啥不合理的，只是这规则整的有点复杂吧？每款CPU都要去ark网站看看有啥不同了…

不支持Win10工作站了？

最后我再写一点花絮。在Intel网站的文档中，第四代Xeon SP看上去用于工作站时没有官方支持Win10了？（Windows 11完整兼容）不过在Server 2019 LTSC部分却也提到了Win10——大版本都是1809——如果对于12代Core桌面CPU肯定有点老，但企业级Xeon还是要做更多一点的向前兼容工作。

另外，我看到这个官方列表里的Linux系统，除了RHEL、SUSE、Ubuntu之外还出现了Alibaba Cloud Linux，是不是有点意外？在这里给马涛兄和杨勇兄他们点个赞吧！

扩展阅读：《企业存储技术》文章分类索引（微信公众号专辑）》

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage

历史文章汇总：http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangl