[转帖]整机柜2.0:天蝎的新高度

整机,天蝎,高度 · 浏览次数 : 0

小编点评

**天蝎2.0机柜设计回顾** 天蝎2.0机柜的设计主要围绕以下几个方面进行优化: * **机柜内部宽度增加:**从1.0英寸(483mm)的EIA标准到538mm(约21英寸),为IT设备提供更大的可用空间。 * **散热区独立设计:**采用散热区独立设计,通过RMC或机柜背板实现独立风扇控制,以确保散热效率。 * **组件模块化和方案搭配使用:**采用模块化的设计和方案搭配使用,降低成本和提高可维护性。 * **组件优化:**优化组件大小、形状和材料,降低成本和提高效率。 * **风扇集中共享:**采用集中共享风扇技术,减少风扇数量,降低成本和提高效率。 * **连接灵活性提升:**优化连接接口,为不同硬件组件提供灵活的连接。 **与OCP项目的比较:** * **开放性:**OCP的硬件设计更注重部件的模块化和方案之间的搭配使用,而天蝎的设计则更加粗放。 * **可维护性:**OCP的设计更加注重可维护性,可以通过增加空间和使用模块化设计来提高维护性。 * **成本效益:**OCP的设计更注重降低成本,而天蝎的设计则更加注重效率和性能。

正文

https://zhuanlan.zhihu.com/p/370205763

 

上周参加2014可信云服务大会,在阿里的天蝎机柜(ALI RACK)前流连拍照一番,回来发了三条阿里定制服务器的微博,久违的小小热闹了一把。不过,反而把这个天蝎2.0的机柜给“冷落”了。

 


阿里展示的天蝎2.0机柜及部分服务器。前端维护,后端供电和散热

原本在三、四月份的时候,有想过再小小讨论下天蝎项目(Project Scorpio)。缘起于ZDNet企业解决方案中心今年一月初发布的《数据中心2013:硬件重构与软件定义》技术报告——在第一章天蝎项目与Open Compute Project(开放计算项目,OCP)的部分,侧重于指出天蝎1.0与Open Rack V1的区别,而没有探讨两大规范互相借鉴的可能性。

实际上,彼时太平洋两岸的2.0版本都已接近就绪。“天蝎2.0技术规格”在2013年11月初即达到Rev 0.5,2014年3月底公开;而2014年1月底召开的第五届OCP峰会,也展示了Open Rack V2的设计。

天蝎整机柜与Open Rack的主要尺度变化对比

 

天蝎2.0最大的改变之一,就是机柜内部的宽度,由1.0沿用的19英寸(483mm)EIA标准,向538mm(约21英寸)的OCP标准靠拢。这当然是件好事,既增大了IT设备(如服务器)的可用空间,又有利于标准的统一。

 


阿里的冷存储服务器,可以横向并排3个3.5英寸硬盘(每个147mm),还留有一定的维护空间,这得益于天蝎2.0将内部可用宽度增加了55mm。服务器没有风扇和电源模块,散热与供电由机柜后部的风扇墙及左侧的铜排解决

在每U高度上,天蝎2.0也放弃了EIA标准的1.75英寸(44.45mm,即Rack U,简称RU),却并未采纳OCP的Open U(简称OU,48mm),而是近乎取中的46.5mm。既然天蝎2.0整机柜内部的空间宽度已经是与Open Rack一致的538mm,那么在纵向高度的划分上,还有必要在不到4mm的区间里切割出一个新的标准吗?难道仅仅是为了与OCP不同而不同?

《天蝎2.0整机柜服务器技术规范Revision 0.5》中没有讲原因,我先后询问了浪潮和阿里的工程师。目前来看,可以接受的解释如下:

为什么超过RU:IT设备(服务器)的高度可能仍然遵守RU,不过要加上L形隔板的厚度,所以每U多留出约2mm。L形隔板作用相当于服务器机架套件中的滑轨,便于将服务器从前端拉出来维护,但结构简单、成本更低;

 


传说中的L形隔板,一两个毫米的厚度是有的

为什么小于OU:天蝎2.0和Open Rack V2都不满足于1.0时期2.1米的机柜高度,Open Rack V2增加到2.21米,天蝎2.0则是多了一个2.3米的选项——这是为了实现46U的内部空间,相应的每U高度就不能是48mm,而是46.5mm。

天蝎项目只比OCP“小半岁”,不过部署量还不大,有说不到BAT三家服务器总数的10%(待考)。我也是第一次看到天蝎2.0机柜的实物,这次展出的阿里服务器都是1U设备,L形隔板的影响就尤其显著了。相比之下Open Rack更看重纵向空间,不仅一开始就弄了“OU”,而且服务器设计以2U为主,3款1U方案基本不敢想。比较典型的是Open Vault,一个2U(确切的说是2OU)Sled内部分成上下两层。

 


Open Vault的2OU双层Tray结构,以及后部60mm风扇模块特写

这几台阿里服务器当然不能代表全部的天蝎方案,但天蝎的服务器之所以能大肆采用1U设计,天蝎整机柜后部的风扇墙功不可没。天蝎和Open Rack都集中了电源模块(PSU),由机柜后部的铜排(busbar)为服务器供电,这没啥说的,分歧在于散热是否也要集中。Open Rack选择让IT设备自备风扇,我们知道风扇尺寸大一些效率会更高,所以2U方案要好于1U,Open Vault就可以理解为2个1U共享风扇。

 


天蝎服务器后部供电用的折线臂(Cable Arm),与机柜铜排的连接,以及并排的3个140mm大风扇

天蝎2.0把风扇尺寸统一为140mm×38mm,相当于3U的水平,理论上效率更高,风扇墙的冗余更好,集中起来也便于维护。风扇都在机柜上,服务器就不必考虑做成1U时的(40mm)小风扇了。不过,理论总是很美好,如果相邻的服务器因为结构及热负荷的差异,对风量的要求不同,风扇墙就难免顾此失彼。天蝎2.0的解决方案是以散热区(Cooling Zone)为单位独立设计(譬如把同类服务器放在一起并均衡工作负载),由RMC或机柜背板实现独立风扇控制,以保证散热效率。总之,风扇的集中共享或分散自理,可谓各有利弊。

不过,在内部IT设备如服务器的设计上,天蝎与OCP比起来,还是略显粗放。仍以阿里展示的这三款(1U)服务器(节点)为例,设计水平参差不齐,个人以为冷存储服务器较佳:硬盘可免工具拆卸,系统板便于更换,提供在Atom与ARM之间选择的灵活性。另外两款则不够精心,感觉过于强调降低生产成本,空间利用率和可维护性都有较大的优化空间。反观OCP的服务器设计,很注重部件的模块化和方案之间的搭配使用(如Winterfell计算节点与Open Vault JBOD组合),看似单个部件成本提高,但能在可重用性和易维护性等方面获得补偿,还可适度减少SKU,有助于库存管理。

 


计算与存储相对均衡的服务器(左),还有计算密集型服务器(右),设计理念和实现细节都值得商榷

目前来看,OCP的硬件设计水平仍然优于天蝎项目。原因是多方面的,组织架构或许可以算一条。我们知道,两个项目中都有英特尔(Intel)的深入参与:天蝎项目中,Intel扮演唯一的顾问角色,与阿里巴巴、百度、腾讯、中国电信(中国移动还未正式宣布)一同制订规范,浪潮、曙光、联想、华为等服务器厂商外围支持;而在OCP基金会中,有大量硬件厂商参与,Intel只是在董事会中占据一席。

 


开放计算项目(OCP)的部分成员,总数已超过150家,当然也不乏混进来探听虚实的…

乍看起来,有可能得出“天蝎项目是Intel控制多家客户,OCP是多家厂商为Facebook服务”的结论。然而,从已经公开的各项方案来看,OCP的机制使部件和系统厂商在硬件设计上的经验积累得到了更充分的体现,这应该归功于OCP基金会的设置。OCP的目标是发展开源硬件,效仿开源软件如OpenStack的做法,成立基金会可以避免被发起者(Facebook)所控制。虽然Facebook仍是主要用户,但基金会让厂商的参与度更好。Facebook自己主导了一些设计(如Open Vault),也从厂商直接贡献的设计方案中获益良多。

阿里交易,百度搜索,腾讯社交,传统上BAT三大的核心应用各有侧重。但在社交、移动、大数据、云计算(SMAC)大潮的推动下,旧有的分界线已然消失,主要用户的竞争关系愈发明显,决定了天蝎项目不容易达到OCP的开放度。不过,吸纳更多起码是元器件级的硬件厂商,借鉴x86成功的经验,把生态圈建立起来,还是天蝎项目可以做到的。在这方面,Intel不仅有丰富的经验,也需要更多的变通。

天蝎项目的未来不会局限于整机柜交付,包括把服务器放大到机架的维度重新设计,以往的成功经验仍然可以派上用场。

与[转帖]整机柜2.0:天蝎的新高度相似的内容:

[转帖]整机柜2.0:天蝎的新高度

https://zhuanlan.zhihu.com/p/370205763 上周参加2014可信云服务大会,在阿里的天蝎机柜(ALI RACK)前流连拍照一番,回来发了三条阿里定制服务器的微博,久违的小小热闹了一把。不过,反而把这个天蝎2.0的机柜给“冷落”了。 阿里展示的天蝎2.0机柜及部分服务

[转帖]龙芯 vs 飞腾:各种测试数据看国产CPU水平

https://zhuanlan.zhihu.com/p/99921594 2019年年末,龙芯、飞腾两大国产CPU巨头更是相继组织了规模宏大的年会,发布了新型桌面芯片及其整机产品,顿时硝烟四起。各大媒体也都很嗨,zyt、xhs、rmrb都对两个盛会做了报道,环球更是发表了第三方文章,把龙芯吹捧了一

[转帖]整理收藏:shell中的test条件测试

https://zhuanlan.zhihu.com/p/504991399 shell编程中经常会有很多需要逻辑判断的地方,比如一个文件/文件夹是否存在,字符串是否为空等等,而test就具有这样的优良传统,将我们需要的结果通过简单的表达式查询,从而通过状态码$?取值。 1.对文件类型的检测 -e:

[转帖]整理常用的 vim 命令

vim 是一款功能强大的文本编辑器,它是Linux下常用的编辑器之一,对于熟练掌握了 vim 的人来说,用它编辑文件,方便又快捷,能极大的提高工作效率 vim 功能强大,对应的命令也非常的多,对于初学者来说,看到这么多的命令容易打退堂鼓,想当初,自己刚接触vim的时候,由于不熟悉vim,每一个命令都

[转帖]TiDB 整体架构

https://docs.pingcap.com/zh/tidb/stable/tidb-architecture 与传统的单机数据库相比,TiDB 具有以下优势: 纯分布式架构,拥有良好的扩展性,支持弹性的扩缩容 支持 SQL,对外暴露 MySQL 的网络协议,并兼容大多数 MySQL 的语法,在

[转帖]JVM 虚拟机(整体架构、类文件结构)我来了~~~

JVM 虚拟机(整体架构、类文件结构)我来了~~~ 虚拟机 1.1 发展历程 1.1.1 java 往事 ​ Java 诞生在一群懒惰、急躁而傲慢的程序天才之中。 ​ 1990 年 12 月,Sun 的工程师 Patrick Naughton 被当时糟糕的 Sun C++ 工具折磨的快疯了。他大声抱

[转帖]Spring Cloud 整合 SkyWalking

https://www.jianshu.com/p/e81e35dc6406 Java Agent 服务器探针 探针,用来收集和发送数据到归集器。参考官网给出的帮助 Setup java agent,我们需要使用官方提供的探针为我们达到监控的目的,按照实际情况我们需要实现三种部署方式 IDEA 部署

[转帖]虚拟化: 物理CPU与VCPU的关系 || 内存上限说起 VMware内存分配初探

本文章整合了一下(vSphere&FusionSphere)内存的相关知识: 1.虚拟化CPU与VCPU关系 2.虚拟化的内存分配 1、vSphere 物理CPU与VCPU的关系 为方便识别虚拟的资源和物理(或叫真实的)资源,本人文章中以小写字母v前缀标识虚拟资源,小写字母p前缀标识物理资源。例如:

[转帖]nginx调优参数整理总结

nginx性能优化考虑点 当我需要进行性能优化时,说明我们服务器无法满足日益增长的业务。性能优化是一个比较大的课题,需要从以下几个方面进行探讨: 当前系统结构瓶颈了解业务模式性能与安全 当前系统结构瓶颈 首先需要了解的是当前系统瓶颈,用的是什么,跑的是什么业务。里面的服务是什么样子,每个服务最大支持

[转帖]5.Nginx常遇问题入坑出坑整理

https://cloud.tencent.com/developer/article/2129777?areaSource=105001.10&traceId=zTlrks12HlQGZpAUZE_y4 0x00 Nginx 安装与编译 1.在Ubuntu系统上进行Nginx源码编译安装时指定了–