看完这篇,DWS故障修复不再愁

看完,dws,故障,修复,不再 · 浏览次数 : 179

小编点评

**DWS服务软硬件故障场景和修复原理** **简介** 本文旨在详细梳理分析DWS服务面临软硬件故障场景和对应的修复原理,帮助用户全面了解DWS的集群故障修复。 **硬件故障场景** * 主机故障:系统盘损坏、其他硬件故障导致主机无法启动等。 *磁盘故障:包括磁盘故障和raid组故障。 * 硬件故障场景主要包括: *内存条故障更换 *raid组内磁盘故障更换 *主机断电重启 **软件故障场景** * 软件故障场景包括: * CM、GTM,CN,DN六种类型的实例组件,每类组件提供的功能不动,配置数量也不同,但共同配合,支撑DWS的运维和业务功能。 **故障修复** DWS支持的故障修复主要包括: * DN主备build:用于修复单节点实例故障。 * 实例修复:用于修复多个节点实例故障。 * 节点修复:用于修复多个节点实例故障。 **实例修复实例修复** * 相对简单故障场景:例如机器数据盘损坏,更换磁盘。 * 相对复杂故障场景:例如多个节点实例故障,机器数据盘损坏。 **节点修复** * 处理更加复杂的故障场景,例如CPU、内存故障。 **主要场景** * 针对N台主机的DWS集群,提前规划M台机器作为温备机器。 * 如果DWS集群内某台机器发生了硬件故障且无法修复。 * 从温备机器中任找一台机器,然后使用DWS修复工具在温备机器上重建故障机器上面的软件、配置和数据。 **结论** 本文详细梳理了DWS服务面临软硬件故障场景和对应的修复原理,帮助用户了解DWS的集群故障修复。通过此文,用户可以全面了解DWS的服务故障修复流程,并以防出现故障。

正文

摘要:本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。

本文分享自华为云社区《GaussDB(DWS)故障修复系统性介绍》,作者: 闻鲜生。

DWS是一个分布式架构的MPP集群,物理部署上涉及数百数千台主机和对应的磁盘,以及这些主机所在的大规模分布式高速组网环境。在逻辑上,MPPDB包括CM、GTM、CN、DN各种实例组件的配合工作。因此DWS的故障场景较多,不过我们提供了针对各种故障场景的系统性修复方案。通过此文可以了解DWS服务面临的故障场景和对应的修复方案。

硬件故障场景

1、可修复故障:主要是指硬件故障后可以修复,并且不会造成数据损坏或者丢失,比如内存条故障更换,raid组内磁盘故障更换,主机断电重启等。这种故障场景下,等待硬件故障恢复后,上面的数据库实例会自动启动并恢复。

2、磁盘故障:包括磁盘故障和raid组故障,可能导致CN,DN数据损坏或者丢失。这种故障场景下,等待硬件故障修复后,需要对上面的CN实例做元数据修复,DN实例做数据修复,CM,GTM实例做配置修复。

3、主机故障:包括系统盘损坏,其他硬件故障导致的主机无法启动等,会导致该主机上部署的软件和数据丢失。这种故障场景下,则需要更换主机,使用新主机替换故障主机,需要在新主机上重装数据库软件,重建上面的数据库实例。

软件故障场景

DWS逻辑上包括OM,CM,GTM,CN,DN六种类型的实例组件,每类组件提供的功能不动,配置的数量也不同,但是共同配合,支撑DWS的运维和业务功能。如下是DWS服务的一种简单部署拓扑图(其中OM属于静态工具因此不再列出,为了拓扑简洁性DN从备也未列出):

其中硬件故障最终体现到DWS数据库实例故障上,DWS集群修复也是通过修复每类故障实例来进行的,每类实例的修复条件和修复思路如下:

  • 集群管理组件(CM)
    • cm_server:主备模式,主备至少有一个正常的才能修复。主要修复配置,以对端为模板重建故障实例。
    • cm_agent:每个节点都部署一个cm_agent,原则上只要有一个正常的cm_agent就能修复。主要修复配置,以正常的cm_agent为模板重建故障实例。
  • 全局事务管理(GTM):主备模式,主备至少有一个正常的才能修复。主要修复配置和少量数据(xid,序列等),以对端为模板重建故障实例。
  • 协调节点(CN):多主多活模式,每个节点可部署一个CN实例,整个DWS集群最多部署20个CN实例。只要有一个正常的CN就能修复。主要修复配置和元数据,以正常的CN为模板重建故障实例。
  • 数据节点(DN):多切片模式,最多支持2048个数据切片。每个数据切片又包括主机,备机,从备三副本。每个DN切片主备从只能故障一个。主机或备机故障以对端实例为模板修复故障实例配置和数据。从备故障以主机实例为模板修复故障实例的配置。

故障修复场景

结合硬件故障场景和软件故障场景,DWS支持的故障修复主要包括:DN主备build,实例修复,节点修复(温备)

DN主备build

DN主备副本通过WAL实时同步数据,由CM来自动完成DN主备实例的状态监控、主备冲裁、主备切换及主备build。如果主DN所在机器发生故障,CM自动完成DN主备切换(备机升主,主机降备),如果故障恢复后,CM会自动做DN主备数据同步(build)来重建故障备机。该场景主要包括机器宕机重启,更换内存条等,是最常见的故障场景也是最简单的故障场景,DWS已经支持自动化处理。

实例修复

实例修复主要指相对于“DN主备build”更复杂的故障场景,该故障场景主要是指某个机器(或多台机器)发生实例级别故障,实例范围包括CM、GTM、CN、DN等实例,故障范围主要包括实例的配置或者数据发生损坏或者丢失,但是故障机器的OS系统和DWS数据库软件还是正常的。该故障场景主要包括机器数据盘,raid组损坏,更换磁盘等。

典型的故障场景和修复示意图如下:

该故障场景DWS已经不能做自动化修复,但是提供了一键式修复工具gs_replace,需要运维人员分析故障场景,预估修复耗时,然后在业务空闲时间窗进行修复。

CM、GTM主要修复配置,秒级修复,对业务和系统负载影响很小;CN涉及元数据重建,耗时与表数量正相关,并且在修复后期会短暂锁集群做元数据追增,阻塞用户DDL业务;DN涉及数据重建,耗时与数据量正相关,修复过程中不影响业务,但会消耗系统的网络和IO资源。

节点修复

节点修复主要处理更加复杂的故障场景,该故障场景主要是指某个机器(或多台机器)发生整机故障,如CPU、内存故障,OS系统损坏导致的机器无法启动。

该故障场景修复思路如下:

1、确认故障范围,包括故障机器,影响的数据库实例。

2、故障机器断电下网。

3、重新准备一台新机器,新机器软硬件规格要和故障机器一样。

4、把新机器的主机名和IP修改成故障机器一样,并加入到DWS集群网络内。

5、通过DWS修复工具在新机器上重建故障机器上的软件、配置和数据。

温备

温备处理的故障场景和节点修复一样,主要是修复方式不一样,温备主要适用于云上场景或者有机器富裕的用户。

主要使用场景如下:

1、针对N台主机的DWS集群,提前规划M台机器作为温备机器,温备机器软硬件规格和DWS集群机器一样。并把温备机器也加入到DWS集群网络环境内。

2、如果DWS集群内某台机器发生了硬件故障且无法修复。

3、把故障机器断电并下网。

4、从温备机器中任找一台机器,然后使用DWS修复工具在温备机器上重建故障机器上面的软件、配置和数据。

本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。具体的使用说明和操作步骤可参见DWS产品文档,从此对DWS故障修复不再愁。

 

点击关注,第一时间了解华为云新鲜技术~

与看完这篇,DWS故障修复不再愁相似的内容:

看完这篇,DWS故障修复不再愁

摘要:本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。 本文分享自华为云社区《GaussDB(DWS)故障修复系统性介绍》,作者: 闻鲜生。 DWS是一个分布式架构的MPP集群,物理部署上涉及数百数千台主机和对应的磁盘,以及这

[转帖]docker容器自动重启,看完这篇彻底明白了

一. JVM内存区域的划分 1.1 java虚拟机运行时数据区 java虚拟机运行时数据区分布图: JVM栈(Java Virtual Machine Stacks): Java中一个线程就会相应有一个线程栈与之对应,因为不同的线程执行逻辑有所不同,因此需要一个独立的线程栈,因此栈存储的信息都是跟当

算法基础(一):串匹配问题(BF,KMP算法)

好家伙,学算法, 这篇看完,如果没有学会KMP算法,麻烦给我点踩 希望你能拿起纸和笔,一边阅读一边思考,看完这篇文章大概需要(20分钟的时间) 我们学这个算法是为了解决串匹配的问题 那什么是串匹配? 举个例子: 我要在"彭于晏吴彦祖"这段字符串中找到"吴彦祖"字符串 这就是串匹配 这两个算法太抽象了

[转帖]一口气看完45个寄存器,CPU核心技术大揭秘

https://www.cnblogs.com/xuanyuan/p/13850548.html 序言 前段时间,我连续写了十来篇CPU底层系列技术故事文章,有不少读者私信我让我写一下CPU的寄存器。 寄存器这个太多太复杂,不适合写故事,拖了很久,总算是写完了,这篇文章就来详细聊聊x86/x64架构

SQLSERVER 快照隔离级别 到底怎么理解?

一:背景 1. 讲故事 上一篇写完 SQLSERVER 的四个事务隔离级别到底怎么理解? 之后,有朋友留言问什么时候可以把 snapshot 隔离级别给补上,这篇就来安排,快照隔离级别看起来很魔法,不过在修车之前,得先看下怎么开车。 二:snapshot 隔离详解 1. snapshot 之前的困境

带你彻底搞懂递归时间复杂度的Master公式

网上找到的Master公式推导过程都太过于复杂了,为此我特地找到一种小白也能看懂的推导过程。看完这篇文章后,你会对递归的时间复杂度深谙于心,打死都不会忘记。

[转帖]JMETER结果分析

https://www.cnblogs.com/a00ium/p/10462892.html 我相信你同意:有很多方法可以收集和解释JMeter结果,你会感到迷茫。 嗯,看完这篇文章后,您将了解收集和分析结果的12种不同方法! 我们将探索每种可能的方式来获得富有洞察力的指标,包括图形,图表,表格,H

Spring Boot 3.0横空出世,快来看看是不是该升级了

简介 Spring boot 3.0于2022年11月正式发布了,这次的发布对于我们普通程序员的影响有多少呢?我们是不是需要考虑立马升级到Spring Boot3.0呢? 别急,看完这篇文章再来做决定也不迟。 对JAVA17和JAVA19的支持 相信很多小伙伴到现在还是使用得是JDK8,但是JDK8

理论+实战,详解Sharding Sphere-jdbc

摘要:Apache ShardingSphere 是一款分布式的数据库生态系统,它包含两大产品:ShardingSphere-Proxy和ShardingSphere-JDBC。 本文分享自华为云社区《看完这一篇,ShardingSphere-jdbc 实战再也不怕了》,作者:勇哥java实战分享

解放双手!ChatGPT助力编写JAVA框架

亲爱的Javaer们,在平时编码的过程中,你是否曾想过编写一个Java框架去为开发提效?但是要么编写框架时感觉无从下手,不知道从哪开始。要么有思路了后对某个功能实现的技术细节不了解,空有想法而无法实现。如果你遇到了这些问题,看完这篇文章你也能用ChatGPT编写一个简单的JAVA框架。