[转帖]记一次vcsa6修复过程

一次,vcsa6,修复过程 · 浏览次数 : 0

小编点评

## 1. 发现问题及解决方案 * 服务器无法登录: * 查看空间:df -h 显示磁盘已使用90%的存储空间,其中一些文件可能无法正常处理。 * 清理空间: * 使用 `find /storage/log -mtime +90 -exec rm -rf {} \\;` 命令删除超过90天未删除的日志文件,并将该目录下的所有子目录和文件删除。 * 使用 `cd HKEY_THIS_MACHINE\\services\\vmdir\\`命令切换到VMware目录,并在`set_value`命令中设置管理员密码。 * 修改WEB管理员密码: 使用 `/usr/lib/vmware-vmdir/bin/vdcadmintool`命令设置管理员密码。 * 无法更新密码: * 检查密码格式: * 确保密码包含字母、数字和符号,且不能包含空格、引号、双引号、特殊字符等。 * 使用 `/opt/likewise/bin/lwregshell cd HKEY_THIS_MACHINE\\services\\vmdir\\ set_value dcAccountPassword "pI;\\;$n;R(yiXG49:uAT\" quit` 命令重新设置管理员密码,并确保新密码符合密码格式要求。 ## 2. 注意事项 * 每次设置管理员密码时,都需要记住新密码,并确保它符合密码格式要求。 * 修改WEB管理员密码时,谨慎操作,避免使用敏感信息。

正文

一、

某天发现一台vmware  vCenter Server Appliance services 6偶尔能登陆了,但极不稳定,连shell都偶尔能进......

然后利用各种手段想方设法进到shell里,这是必须的,否则白谈....

首先查看空间:df -h,发现/和/storage/log都用了100%,好把开刀:

find /storage/log -mtime +90 -exec rm -rf {} \;

(千万别学,可能死得好惨)

再来检查/目录:du -xah | sort -h

发现是/var/log占空间巨大,逐步深入发现是audit.log有5G,删掉

好吧,以为到此为止,清理完了reboot一把

坏事正式开始:reboot后,web服务打开即报503错:

503 Service Unavailable (Failed to connect to endpoint: [N7Vmacore4Http20NamedPipeServiceSpecE:0x7f134ccefc60] _serverNamespace = / _isRedirect = false _pipeName =/var/run/vmware/vpxd-webserver-pipe)

再次进入shell,检查空间df -h正常了,检查服务:service-control --status,发现一堆的vmware相关服务是stop状态

手工启动,结果报的是/yyy/xxxxx.log不能生成,KAO,原来上面find会把目录也删掉的,而java也太垃圾了居然不会自已重建log目录....没办法,没有对比无法手工修复了....

二、(以下过程同时适用于vcsa6镜像恢复后的手工更新工作)

 幸好还有一招,恢复备份的镜像.....

恢复完了,启动还是不行,有两个服务始终启动不了:vmware-invsvr和vmware-vpxd,然后又是各种翻日志,省略1千字......

通过invsvr服务的log,发现vcenter Invalid credentials LDAP error 49这个错误,并且再次F.U.C.K垃圾百度.....毫无作用.....

幸好有yahoo找到一个帮助:https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2147280

先别急着动手干,首先要找的是帐号:

/opt/likewise/bin/lwregshell
cd HKEY_THIS_MACHINE\services\vmdir\

list_values,显示如下:

+  "dcAccount"            REG_SZ          "192.168.10.2"
+  "dcAccountDN"          REG_SZ          "cn=192.168.10.2,ou=Domain Controllers,dc=vsphere,dc=local"
+  "dcAccountOldPassword" REG_SZ          "U2<SExr*XbXZ1z\\H\"zZW"
+  "dcAccountPassword"    REG_SZ          "pI;;$n;R(yiXG49:uAT"
+  "LduGuid"              REG_SZ          " da32t2ds-4f24-86d4-dc46587a0fed"
+  "MachineGuid"          REG_SZ          "easdfwef-3dwf4-45bf-9c38-0205778722c5"
+  "SiteGuid"             REG_SZ          "62wefwef60-wef3-bcba-5583f2f16470"
   "Arguments"            REG_SZ          "/usr/lib/vmware-vmdir/sbin/vmdird -s -l 0 -f /usr/lib/vmware-vmdir/share/config/vmdirschema.ldif"
   "Autostart"            REG_DWORD       0x00000001 (1)
   "Dependencies"         REG_SZ          "lsass dcerpc vmafd"
   "Description"          REG_SZ          "VMware Directory Service"
   "Environment"          REG_SZ          ""
   "Path"                 REG_SZ          "/usr/lib/vmware-vmdir/sbin/vmdird"
   "Type"                 REG_DWORD       0x00000001 (1)

注意第二行:得到的帐号是:192.168.10.2@vsphere.local

下面开始更新密码:/usr/lib/vmware-vmdir/bin/vdcadmintool

选3,然后输入上面得到的帐号192.168.10.2@vsphere.local,系统显示密码已更新,这时,要记住显示的古怪新密码,例如pI;\;$n;R(yiXG49:uAT

!!!(20211025新补充,因为刚踩过这坑)

注意,根据KB里面的说法:VMware Knowledge Base

Note: The tool does not filter out invalid characters from the generated password such as:
& (ampersand)
; (semicolon)
" (double quotation mark)
' (single quotation mark)
^ (circumflex)
\ (backslash)
% (percentage)

You may have to keep running option 3 several times until you get a valid password.

这个古怪新密码是未经过滤的,可能会带有一些不可用的字符,特别是空格、引号、双引号之类的,就要多次执行选项3,重新生成了

!!!

然后要把这个新密码更新到系统里:

/opt/likewise/bin/lwregshell
cd HKEY_THIS_MACHINE\services\vmdir\
set_value dcAccountPassword "pI;\;$n;R(yiXG49:uAT"

quit

然后就可以重启所有服务或直接reboot了

service-control --stop --all

service-control --start --all

终于久违的WEB界面又正常了。

三、

顺带记号一下:修改WEB管理员的密码(或忘记密码)的方法:

/usr/lib/vmware-vmdir/bin/vdcadmintool

先3,输入管理员帐户:如administrator@vsphere.local,得到一个新密码。

</article>

与[转帖]记一次vcsa6修复过程相似的内容:

[转帖]记一次vcsa6修复过程

一、 某天发现一台vmware vCenter Server Appliance services 6偶尔能登陆了,但极不稳定,连shell都偶尔能进...... 然后利用各种手段想方设法进到shell里,这是必须的,否则白谈.... 首先查看空间:df -h,发现/和/storage/log都用了

[转帖]记一次靠谱的 K8S 排错实战过程,硬核!

http://blog.itpub.net/31545813/viewspace-2925035/ 一 背景 收到测试环境集群告警,登陆 K8s 集群进行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 节点 calico pod 异常。 查看详细信息,查看nod

[转帖]记一次线上Oracle连接耗时过长的问题

https://www.cnblogs.com/changxy-codest/p/15670495.html 问题现象 1、远程Oracle数据库通过IP:PORT/SERVICE_NAME连接 2、应用服务通过Docker容器部署,访问Oracle联通性测试接口,需要50s左右才能返回连接成功;

[转帖]记一次靠谱的 K8S 排错实战过程,硬核!

http://blog.itpub.net/31545813/viewspace-2925035/ 一 背景 收到测试环境集群告警,登陆 K8s 集群进行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 节点 calico pod 异常。 查看详细信息,查看nod

[转帖]记一次flannel网络调整

https://www.jianshu.com/p/a772e4b951f2 背景 最近给一个子公司部署一套k8s集群,集群搭建完之后有几个新需求需要新增几个node节点,在新增节点时发现添加失败,经过查询发现是网络规划问题导致。 flannel启动失败,报错信息如下:Error registeri

[转帖]记一次使用nacos2踩到的坑

https://cloud.tencent.com/developer/article/2077110?areaSource=104001.26&traceId=7WZNP412yK3vh7ebw4th0 前言 本文素材来源朋友学习nacos2.1.1踩到的坑。直接上正菜 坑点一:出现端口被占用 因

[转帖]记一次压测引起的nginx负载均衡性能调优

https://xiaorui.cc/archives/3495 这边有个性能要求极高的api要上线,这个服务端是golang http模块实现的。在上线之前我们理所当然的要做压力测试。起初是 “小白同学” 起头进行压力测试,但当我看到那压力测试的结果时,我也是逗乐了。 现象是,直接访问Golang

[转帖]记一次使用gdb诊断gc问题全过程

https://www.cnblogs.com/codelogs/p/17092141.html 简介# 上次解决了GC长耗时问题后,系统果然平稳了许多,这是之前的文章《GC耗时高,原因竟是服务流量小?》然而,过了一段时间,我检查GC日志时,又发现了一个GC问题,如下:从这个图中可以发现,我们GC有

[转帖] 记一次使用gdb诊断gc问题全过程

记一次使用gdb诊断gc问题全过程 原创:扣钉日记(微信公众号ID:codelogs),欢迎分享,转载请保留出处。 简介# 上次解决了GC长耗时问题后,系统果然平稳了许多,这是之前的文章《GC耗时高,原因竟是服务流量小?》然而,过了一段时间,我检查GC日志时,又发现了一个GC问题,如下:从这个图中可

[转帖]记一次sst文件损坏修复过程

https://tidb.net/blog/54e388c8 【2023-07-14 14:26:28】应用系统报警删除数据失败,查看日志报Region is unavailable,同时企业微信群也收到数据库告警信息。 二、问题定位 首先查看集群进程都正常,登录tidb dashboard查看日志