卷扩容业务失败了,在线等…

扩容,业务,失败,在线 · 浏览次数 : 38

小编点评

**卷扩容失败处理指南** **一、基本背景** 卷扩容是指将实例上的磁盘扩展到更大的容量。当磁盘使用率过高时,数据库的性能会明显下降,因此需要清理无用的数据和清理无用的日志。 **二、卷扩容任务失败处理办法** **1. 改善磁盘使用率方法** - 设置 `datastorage_threshold_value_check` 参数,使其动态调整只读阈值。 - 回调 `datastorage_threshold_value_check` 参数后,如果任务成功,则回调该阈值。 **2. 删除无效或失效的日志文件** - 使用 `df -h` 命令查看磁盘使用率,确认存在风险的目录。 - 确认日志文件数量正常清理或回收机制。 **3. 管控或AGENT调用等报错导致任务流报错失败** - 登录实例堡垒机 CN 节点后台。 - 使用 `df -h` 命令查看当前磁盘使用情况。 - 若看到磁盘容量已更新,说明内核已完成磁盘扩容。 - 联系管控人员,确认报错信息,定位问题。 **4. 任务流中内核扩容步骤报错** - 登录实例堡垒机 CN 节点后台。 - 使用 `df -h` 命令查看当前磁盘使用情况。 - 若看到磁盘容量已更新,说明内核已完成磁盘扩容。 - 联系管控人员,确认报错信息,定位报错在哪一步。 **5. 任务流中内核扩容步骤已成功完成,后置子任务流或步骤报错** - 联系管控人员,确认任务流的报错信息。 - 定期重试任务流以规避管控的故障节点。

正文

摘要:卷扩容一般指实例级的磁盘扩容。

本文分享自华为云社区《【公有云公共】卷扩容业务失败》,作者:酷哥。

一、基本背景介绍

卷扩容一般指实例级的磁盘扩容。随着客户业务的不断开展,磁盘使用率也会随之增加。当磁盘使用率过高时,会影响数据库的使用,这时建议用户清理无用数据、运维清理无用日志或用户来操作卷扩容任务。

tips:

1、磁盘使用率过高时,会影响甚至完全阻塞客户的业务开展,所以GaussDB为各实例配置了巡检告警的指标参数,超过该指标的阈值时,即会上报告警。(该指标阈值必须设定的比datastorage_threshold_value_check(数据库只读阈值)低一些,这样才能达到提醒的效果。)

2、当超过datastorage_threshold_value_check(数据库只读阈值,百分数,默认值85),且enable_transaction_read_only(超过阈值后改为只读模式,默认为on)参数为on时,实例会改为只读模式,禁止用户的写入操作。

3、default_transaction_read_only(数据库只读模式参数,默认值off),设置为on后无法执行dml和写事务,即手动设置数据库为只读模式。

二、卷扩容任务失败处理办法

1、实例的磁盘使用率已经超过阈值,处于只读状态,导致卷扩容任务流失败。

处理思路:改善磁盘使用率

方法一:临时调大datastorage_threshold_value_check(数据库只读阈值),保证卷扩容任务完成后,回调该阈值。

  1. 告警或问题单提权后登陆问题实例的CMS主节点。
  2. cat /var/chroot/usr/local/cm/cm_server/cm_server.conf|grep "datastorage_threshold_value_check"(查询并记录当前只读阈值参数X1)
  3. gs_guc reload -Z cmserver -N all -I all -c "datastorage_threshold_value_check=X2"(调整只读阈值参数至X2,X2取值(1-99))

4)重试任务流至成功结束。

5)gs_guc reload -Z cmserver -N all -I all -c "datastorage_threshold_value_check=X1"(任务流重试成功结束后回调只读阈值参数至X1)

方法二:删除无效或失效的日志文件(联系内核工程师确认)

使用df –h命令查看当前磁盘使用率较高的磁盘,确认当前使用率,可能存在风险的目录包括/home/Ruby/log、/home/Ruby、/home/Mike、$PGHOST、/user/local(DN);

其中/home/Ruby/log下主要存放系统日志,管控日志以及om_agent日志,正常情况下这些日志均有自动清理和回收机制,若发现某类日志数量明显增加,则可能存在风险,需要手动清理(例如om_agent默认保留10个日志文件、管控日志默认保留20个等);

/home/Ruby和/home/Mike目录下主要会存放一些运维操作的临时文件,这些文件一般情况下在运维操作结束后就可以清理,可能存在忘记清理或者临时文件生成过大的情况,需要及时处理;

$PGHSOT目录下主要存放数据库运行相关的临时文件,若存在较大文件,需要确认文件用途后,采取清理动作;DN上的/usr/local目录使用系统磁盘,可能有一些运维操作也会在此目录下落盘,需要及时清理。

2、管控或AGENT调用等报错导致任务流报错失败

(检查任务流信息,视报错内容及步骤联系管控或AGENT确认)

(1)任务流中在内核扩容步骤报错。

登录实例堡垒机CN节点后台,使用df –h命令查看当前磁盘使用情况,若看到磁盘容量已经更新,则说明内核的磁盘扩容任务已成功。需要联系管控人员,确认任务流的报错信息,定位报错在哪一步,并根据管控人员的指引操作。(若磁盘未扩容成功,说明确实为内核问题,联系内核工程师处理)

(2)任务流中还未到达内核扩容步骤,前置子任务流或步骤报错。 需要联系管控人员,确认任务流的报错信息,定位报错在哪一步,并根据管控人员的指引操作。

(3)任务流中内核扩容步骤已成功完成,后置子任务流或步骤报错。 需要联系管控人员,确认任务流的报错信息,定位报错在哪一步,并根据管控人员的指引操作。

三、卷任务流扩容失败处理案例分享

1、问题定位:确认任务流中子任务流下发报错,联系管控根据其指引定位问题,确认为管控节点存在异常。(管控自身的3个节点中2个节点存在问题,只要调用到异常节点就会报错)

2、处理办法:多次重试任务流以规避管控的故障节点,后重入任务流直至成功结束。

 

点击关注,第一时间了解华为云新鲜技术~

与卷扩容业务失败了,在线等…相似的内容:

卷扩容业务失败了,在线等…

摘要:卷扩容一般指实例级的磁盘扩容。 本文分享自华为云社区《【公有云公共】卷扩容业务失败》,作者:酷哥。 一、基本背景介绍 卷扩容一般指实例级的磁盘扩容。随着客户业务的不断开展,磁盘使用率也会随之增加。当磁盘使用率过高时,会影响数据库的使用,这时建议用户清理无用数据、运维清理无用日志或用户来操作卷扩

ext4 磁盘扩容

目录 ext4文件系统磁盘扩容 目标 途径 操作步骤 改变前的现状 操作和改变后的状态 ext4文件系统磁盘扩容 一个磁盘有多个分区,分别创建了物理卷、卷组、逻辑卷。通过虚拟机软件对虚拟机的磁盘/dev/sdb增加了大小。 目标 /mnt/data2目录扩容, 200G(197G)-->300G(2

卷爆短剧出海:五大关键,由AIGC重构

短剧高温下,谈谈AIGC的助攻路线。 短剧,一个席卷全球的高温赛道。 以往只是踏着霸总题材,如今,内容循着精品化、IP化的自然发展风向,给内容、制作、平台等产业全链都带来新机,也让短剧消费走向文化深处,触发更大的社会渲染力。 从国内到全球,短剧行业亦然乘风。业内预测分析,2027年海外微短剧市场规模

AI回答总不满意?你的提问方式可能完全错误!

向AI提问想写一篇论文,结果AI就生成2000字左右的文章后就完了。小伙伴们是不是也会遇到这类情况呢。今天来教大家AI提示词的技巧,学会向AI提问。

内卷时代!程序员如何突破35岁的宿命?

曾经梦想仗剑走天涯,如今却在写字楼里安家。他乡容不下灵魂,家乡容不下肉体,还面临着35岁被毕业,这难道就是程序员的宿命?

工作卷,是主动选择还是迫于无奈?

这个词是近几年流行起来的网络用语,它是内卷的简化形式,“内卷”本来是一个名不见经传的普通词语,经网络流传,很多人就用其来指代非理性的内部竞争或“被自愿”竞争。在现代职场,有一群人被戏称为"职场卷王"。他们本着累死自己、熬死领导的核心宗旨,总是作为最后一个熄灯人离开公司。我相信你们也肯定都“卷”过,甚...

深度学习(六)——神经网络的基本骨架:nn.Module的使用

终于卷到神经网络了 ...(˘̩̩̩ε˘̩ƪ)

[转帖]TCP的半关闭、半连接、半打开

参考:《UNIX 网络编程 · 卷1 : 套接字联网API》 TCP 半关闭 如果将客户端与服务器之间的网络作为全双工管道来考虑,请求是从客户端向服务器发送,应答是从服务器向客户端发送,其如下图所示: 上图假设 RTT 为 8,且服务器没有处理时间且请求大小与应答大小相同。既然从管道发出到管道的另一

[转帖]k8s 存储卷之 PV & PVC

https://cloud.tencent.com/developer/article/2070495?areaSource=&traceId= 文章目录 k8s 存储卷之 PV & PVC 高级存储 PV 创建 PV 实例 PVC Pod 挂载数据卷 生命周期 k8s 存储卷之 PV & PVC

基于ReAct机制的AI Agent

当前,在各个大厂纷纷卷LLM的情况下,各自都借助自己的LLM推出了自己的AI Agent,比如字节的Coze,百度的千帆等,还有开源的Dify。你是否想知道其中的原理?是否想过自己如何实现一套AI Agent?当然,借助LangChain就可以。