【说明】这是2021年写的文章,是当时vSphere 7.0 U3刚发布的时候出的问题。现在VMware官网上已经提供的7.0 U3C及以后的版本没有这个问题。在此只是将当时的情况记录下来。如果有类似问题,可以通过重启管理代理应急解决。
VMware ESXi 7.0 U3的主机可能会出现“未响应”的状态,如图1所示。
图1 ESXi主机显示未响应
在当前的环境中,vCenter Server版本是7.0.3-18778458(如图1所示),VMware ESXi版本是7.0.3-18644231,如图2所示。
图2 ESXi版本与故障信息
在当前的vSphere集群中,4台ESXi主机版本都是7.0.3-18778458。出现这种情况时,可能是1台主机出现(未响应)的情况,也可能多台同时出现。但是出现这种情况时,只是ESXi主机无法被管理,此时ESXi主机上正在运行的虚拟机正常运行,虚拟机提供的服务也正常。
当图2中ESXi主机提示未响应时,使用ping命令ping相应服务器的IP地址是可以ping通的。如果在浏览器中直接登录故障ESXi主机,会提示如下的错误信息(如图3所示)。
503 Service Unavailable (Failed to connect to endpoint: [N7Vmacore4Http16LocalServiceSpecE:0x00000029690ce230] _serverNamespace = / action = Allow _port = 8309)
图3 尝试登录到ESXi主机时的错误信息
当出现图1、图中的故障时,做为一个应急的解决办法,是在故障服务器的控制台前重新启动管理代理,主要步骤如下。
(1)在故障服务器控制台前,按F2,输入管理员账户root和管理员密码后登录到控制台。按向下光标键↓到Troubleshooting Options(故障排除选项)按回车键,如图4所示。
图4 Troubleshooting Options
(2)在“Troubleshooting Options”控制页中,按向下光标键↓到Restart Management Agents(重新启动管理代理)并按回车键,如图5所示。
图5 Restart Management Agents
(3)在弹出的“Restart Management Agents”对话框中,选中“Collect extra troubleshooting information(收集额外的故障排除信息)”,按F11键,如图6所示
图6 确认重启
(4)重启管理代理之后按回车键,如图7所示。然后按ESC退出并返回到控制台。
图7 重启管理代理完成
参照第(1)至(6)的步骤,在所有出现故障的主机上重新管理代理之后,在vCenter Server中恢复对故障ESXi主机的管理。
VMware 在2021年10月28日发布了VMware ESXi 7.0 U3a,内部版本号为18825058,一般情况下,将7.0 U3升级到7.0 U3a的版本即可解决这个问题。
【说明】在vSphere 7.0 U3的版本中,并不是所有的主机都会出现“未响应”的问题。这种情况一般出现在服务器配置相对较低、负载较重的虚拟化环境中。如果群集中有多台主机,可能只是其中的1台出现。例如在图8所示的虚拟化项目中,4台主机只有1台出现“未响应”的情况。将这4台ESXi主机升级到7.0 U3a(内部版本号为18825058),就能解决这个问题。如图8所示。
图8 将ESXi升级到7.0 U3a版本
另外,VMware在2021年11月12日发布了vSphere 7.0 U3b的版本。由于存在影响升级的问题,VMware 于 2021 年 11 月 12 日从所有站点中删除了 ESXi 7.0 Update 3 ISO。用于 ESXi 7.0 Update 3b ISO 的内部版本 18905247 替换了用于 ESXi 7.0 Update 3 ISO 的内部版本 18644231。对于使用vSphere 7.0 U3的用户,建议升级到7.0 U3b。