服务器崩溃前的数据拯救实践

服务器,崩溃,数据,拯救,实践 · 浏览次数 : 50

小编点评

**虚拟机重启问题解决方案** **解决问题现象:** * 自动重启服务器后,出现“Alert! System fatal error during previous boot Uncorrectable Memory Error”错误提示。 * 服务器无法进入ESXI的管理界面。 **备份CentOS虚拟机数据的方法** **方法一:备份虚拟机镜像文件** 1. 在ESXi Web客户端中提交所有快照并关闭要备份的虚拟机的电源。 2. 转到“存储”页面,点击工具栏上的“数据存储浏览器”。 3. 转到您想要备份的虚拟机的文件夹,选中想要备份的虚拟机磁盘文件,然后单击工具栏上的“下载”选项以将其单独下载到本地作为一个备份。 4. 关闭数据存储浏览器窗口,您可以可以在下方的“近期任务”中看到任务进度条。 **方法二:将虚拟机导出为OVF模板** 1. 在ESXi Web客户端中提交所有快照并关闭要备份的虚拟机的电源。 2. 转到“虚拟机”页面,在右侧的虚拟机列表中找到您想要备份的虚拟机,然后鼠标右键点击并选择“导出”>“确定”即可。 3. 选择“保存文件”选项以下载。 - 方法一:使用tar命令进行压缩。 - 方法二:使用zip命令进行压缩。 **其他建议** * 为了确保数据的完整性,建议将移动硬盘连接到服务器并挂载到/mnt目录上。 * 将移动硬盘格式为ext4,因为ext4是ESXi支持的格式。 * 在备份过程中,可以设置备份任务的自动运行,以便定期备份数据。

正文

前言

在服务器的VMWARE ESXi系统环境中,我们经常需要创建虚拟机来运行各种应用程序。然而,服务器如果偶尔出现自动重启以及紫屏报错的问题,说明服务器内部出现了故障,一般情况下重启机器能够解决问题,但时间一长,问题会越来越严重,可能会出现无法启动的情况,这就会导致数据丢失,因此为了确保数据的安全,需要将CentOS虚拟机上的数据备份到移动硬盘。我们的服务器用的很长时间,上面创建了虚拟机centos,系统中有不少重要数据,但最近服务器经常出现各种问题,于是决定把数据做一个备份。在这篇博客中,我将分享我解决服务器重启问题,紫屏问题以及备份数据的过程,希望对面临类似问题的人提供一些帮助。

1 解决自动重启的问题

现象描述
给服务器接上电源,按下开关后,服务器首先是Configuring Memory ... Done,然后是Initializing IDRAC ... Done,然后就是一些启动信息,但有一个突出的错误警告提示,“Alert! System fatal error during previous boot Uncorrectable Memory Error”,下面就是提示按F1继续或者按F2键重新安装系统,结果按下F1之后,又回到了Configuring Memory ... Done界面,整个过程又来了一遍,服务器就陷入了这样的死循环,就是不能进入ESXI的管理界面。

问题分析
根据报错的提示Uncorrectable Memory Error,应该是启动的时候内存出现了故障,这也是一个常见的故障点,通常的解决方法,就是将内存取下来,然后简单擦一下金属接触点。

解决方法
于是我把服务器的电源断开,然后将12条内存全部取出来,然后做了简单清洁,再按照原来的顺序插入内存槽。再给服务器接上电源,再次启动,这次服务器从死循环中跳了出来,按下F1之后,继续进行系统检查,经过大概5-6分钟,终于能够进入到了ESXI的管理界面,服务器不断重启的问题得到解决。

2 备份CentOS虚拟机数据

接下来,我需要备份CentOS虚拟机上的数据。通过查找资料,发现有两种方式来备份数据,一种是备份虚拟机磁盘文件,另外一种是直接备份虚拟机的文件数据。

2.1 备份虚拟机镜像文件

备份虚拟机镜像文件,也有两种方法。
方法一:手动下载虚拟机磁盘文件
步骤1. 访问ESXi Web客户端,提交所有快照并关闭要备份的虚拟机的电源。
步骤2. 转到“存储”页面,点击工具栏上的“数据存储浏览器”。

步骤3. 转到您想要备份的虚拟机的文件夹,选中想要备份的虚拟机磁盘文件,然后单击工具栏上的“下载”选项以将其单独下载到本地作为一个备份。
步骤4. 关闭数据存储浏览器窗口,您可以在下方的“近期任务”中看到任务进度条。
方法二:将虚拟机导出为OVF模板
步骤1. 访问ESXi Web客户端,提交所有快照并关闭要备份的虚拟机的电源。
步骤2. 转到“虚拟机”页面,在右侧的虚拟机列表中找到您想要备份的虚拟机,然后鼠标右键点击并选择“导出”>“确定”即可。

步骤3. 连续选择两次“保存文件”选项以下载.ovf文件和.vmdk文件,然后单击“确定”即可开始将虚拟机导出为OVF模板,从而完成ESXi虚拟机备份任务,您可以在下方的“近期任务”中看到任务进度条(完成后,您可以单击工具栏上的下载按钮来查找这些文件的存储位置)。

2.2 备份虚拟机文件数据

首先将移动硬盘接到服务器。
步骤1. 访问VMware ESXi Web客户端,导航到虚拟机,然后右键单击虚拟机名称,选择“编辑设置”。
步骤2. 在弹出窗口的虚拟硬件选项卡中,单击“添加其他设备”>“USB设备”。
步骤3. 点击“新建USB设备”,在下拉菜单中找到自己的USB设备,然后点击“保存”即可将自己的USB设备直通到虚拟机中。

其次将移动硬盘挂载到centos
通过mount /dev/sdb1 /mnt命令,把移动硬盘挂载到/mnt上。
第三,将centos的数据压缩保存到移动硬盘
cd /mnt
tar cvpzf backup.tgz / --exclude=/proc --exclude=/lost+found --exclude=/backup.tgz --exclude=/mnt --exclude=/sys
说明:
tar 部分就是我们将要使用的软件。
'cvpfz'是我们给tar加的选项,像“创建一个压缩文档”(这是显然的),“保存权限”(以便使每一个相同的文件有相同的权限),以及“gzip”(缩减大小)。接下来,是压缩文档将获得的名称,在我们的例子中是backup.tgz。
紧随其后的是我们想要备份的根目录。既然我们想备份所有东西:/。接着就是我们要剔除的目录了:我们不想备份每一样东西,因为包括有些目录不是非常有用。同时确保你没有把备份文件本身也加进去了,否则,你会得到怪异的结 果的。你也许同样不打算把/mnt文件夹包括进来——如果你在那儿挂载了其他分区——否则最终你会把那些也备份的。

3 紫屏问题

在拷贝过程中,还碰到了紫屏问题,或者说紫屏死机,是一种让任何管理员都感到头痛的问题。它经常意味着内存问题。
内存问题可能导致服务器的不稳定和紫屏死机。内存插拔可能听起来有点像“拆东墙补西墙”,但在一些情况下,它确实能奇迹般地解决问题。当然,这不是永久解决方案,只是应急手段。

碰到紫屏问题,报错是硬件出现了故障,不过通过重启服务器,还是能够使用一段时间,就像Windows的蓝屏现象,只能趁着系统运行正常的短暂时间把数据备份起来。
因为数据比较多,一次全部备份花的时间很长,出现紫屏,就会重新开始备份,遇到这种情况,只能分批次备份数据。在服务器能够正常运行的时候尽量多备份,直到全部备份为止。
经过多次重启服务器,终于全部将服务器的数据备份完成。

4 胜利与反思

最终,我成功地拷贝了所有的数据,避免了数据丢失的灾难。虽然这个过程中经历了不少的波折,但最后的胜利感觉真是美好。这次的拯救数据也留下了一些宝贵的经验教训。

定期备份数据:这次操作再次强调了定期备份的重要性。无论服务器多么稳定,硬件随时可能出问题,备份是最好的保险。

硬件问题不容忽视:硬件问题可能导致服务器的不稳定,需要及时处理。不要低估内存插拔的威力!

耐心和冷静:在面对紧急情况时,保持冷静和耐心是关键。不要惊慌失措,逐一排除问题。

小结

这个经历教育了我在面对服务器硬件问题时要保持耐心和冷静。重复启动问题以及紫屏报错可能是硬件故障的迹象,但通过仔细插拔内存条,我成功地解决了这个问题。此外,及时备份数据也非常重要。不管出现什么问题,数据的安全都应该是首要任务,这次也让我更加熟悉了ESXi服务器的维护和备份过程,也提醒了我在面对紫屏报错时要冷静应对,寻找解决问题的方法。希望这篇博客对遇到类似问题的人提供了一些启发和帮助。备份数据并解决硬件问题,是确保服务器稳定运行和数据安全的关键步骤。

与服务器崩溃前的数据拯救实践相似的内容:

服务器崩溃前的数据拯救实践

在服务器的VMWARE ESXi系统环境中,我们经常需要创建虚拟机来运行各种应用程序。然而,服务器如果偶尔出现自动重启以及紫屏报错的问题,说明服务器内部出现了故障,一般情况下重启机器能够解决问题,但时间一长,问题会越来越严重,可能会出现无法启动的情况,这就会导致数据丢失,因此为了确保数据的安全,需要...

[转帖]Lightning 实操指南

2.2.2 Lightning 实操指南 这一节将介绍如何使用 Lightning 导入数据的实操 2.2.2.1 TiDB Lightning 快速开始 注意 TiDB Lightning 运行后,TiDB 集群将无法正常对外提供服务。 若 tidb-lightning 崩溃,集群会留在“导入模式

阿里面试:说说自适应限流?

限流想必大家都不陌生,它是一种控制资源访问速率的策略,用于保护系统免受过载和崩溃的风险。限流可以控制某个服务、接口或系统在一段时间内能够处理的请求或数据量,以防止系统资源耗尽、性能下降或服务不可用。 常见的限流策略有以下几种: 令牌桶算法:基于令牌桶的方式,限制每个单位时间内允许通过的请求量,请求量

[转帖]RabbitMQ服务优化,修改最大连接数

https://www.cnblogs.com/hoyeong/p/16242202.html RabbitMQ的优化RabbitMQ的连接数是压垮消息队列的一个重要的指标。所以在平时使用OpenStack平台的过程中,如果大量的用户同时创建虚拟机,会导致云平台创建报错,其实就是消息队列服务的崩溃。

记一次栈溢出异常问题的排查

刚修改的服务,推到开发环境之后,总是时不时的崩溃,但是不知道为什么。尝试找到他的最后一次调用,也没有复现。 没有办法,只能抓dump了。 开启崩溃自动dump,网络上很多,不赘述了。 拿到dump之后,首先看看是什么类型的异常 如图所示,是个栈溢出的异常。 打印一下堆栈,发现密密麻麻的全是这个代码。

gin启动https支持

gin是一个使用Go语言开发的Web框架,具有运行速度快,分组的路由器,良好的崩溃捕获和错误处理,支持中间件等。 在工作中有时候需要支持https服务,gin可以通过中间件的方式来提供对https的支持,这里使用的是secure来提供https服务支持。这里给出一个简单的使用示例: 示例代码 pac

搜狗输入法双击输入框崩溃问题

每当到618、双11这样大促的时候,搜索作为整个App的核心功能,不仅担当着流量入口,还承载着用户感知到这个产品在导购场景中的服务与体验,所以保障搜索以便更好的助力618大卖。

JVM启动参数脚本的再学习与研究

JVM启动参数脚本的再学习与研究 摘要 学无止境 前段时间一直再研究JVM参数调优. 但是最近也在想不应该仅研究如何调优. 因为不管怎么设置, 总有猪队友会把环境搞崩. 所以应该想办法在无人值守的情况下能够启动服务. systemd这种主流方式有时候不靠谱, 进程可能判断生死不准确. 所以还是想通过

为ssh服务器添加2fa认证,一个python脚本全搞定

服务器ssh如果被别人登陆就是一场灾难,所以我研究了ssh认证,我发现Google Authenticator PAM可以实现ssh的2fa认证,但是安装和配置比较麻烦。因此我用python实现了ssh的2fa认证。考虑到很多Linux服务器默认安装python,所以我用py脚本,并只使用标准库,不

服务器神秘挂起:一场惊心动魄的内核探案

2024年6月17日,我们的运维团队突然收到了一连串的告警。监控大屏上,代表着不同 Sealos 可用区的绿点中,零星地闪烁起了一两个红点。 “奇怪,怎么有几台服务器突然 hang 住了?” 值班的小辉皱起了眉头。 这次故障的诡异之处在于它的随机性。并非所有节点都受到影响,而是在不同可用区中,时不时