数仓在线运维:如何进行在线增删CN?

在线,如何,进行,增删,cn · 浏览次数 : 38

小编点评

## Summary of the Blog Post This blog post discusses adding and removing CN nodes in a cluster to optimize performance and scalability. It outlines the following points: **Analysis of Cluster Load and Business Access:** * Adding CN can reduce CPU consumption, increase the number of accepted connections, and distribute the workload across nodes. * Identifying whether to add CN is crucial based on the current load and business requirements. * Scaling the cluster to meet performance and capacity needs can be achieved by increasing CN nodes. **Online Maintenance and Operations:** * The blog post provides detailed instructions for adding or removing CN nodes in an online environment. * The process involves meeting specific pre-conditions and following a series of steps. * The operation can be scheduled during low-peak periods to minimize impact on user operations. **Lock Timeouts and Considerations:** * The blog post discusses potential lockouts due to various operations, including `pg_advisory_lock`. * These lockouts can be resolved by retrying the operation or increasing the number of CN nodes. **Specific Operations and Considerations:** * Adding CN nodes involves finding the cluster, expanding the node pool, and clicking "ManageCN Nodes." * Removing CN involves finding the node, clicking "DeleteCN Node," and selecting nodes for deletion. * The blog post provides specific considerations for different operations like `pg_advisory_lock` transactions and LVS load balancing. **Conclusion:** The blog post offers valuable insights into optimizing CN node management in a cluster by balancing performance, scalability, and cost. It provides clear instructions and considerations for adding and removing CN nodes, taking into account lock timeouts and specific operations.

正文

摘要:集群运行过程中,根据集群的综合负载和业务接入情况进行分析:增加CN可以适当降低CPU消耗,增大接入连接数,分散CN节点业务压力,根据实际情况来识别是否要增加CN,如果是提升集群容量和扩展比能力,建议进行扩容操作。

本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维-在线增删CN》,作者:sevenjiang。

集群运行过程中,根据集群的综合负载和业务接入情况进行分析:增加CN可以适当降低CPU消耗,增大接入连接数,分散CN节点业务压力,根据实际情况来识别是否要增加CN,如果是提升集群容量和扩展比能力,建议进行扩容操作。

支持在线运维:

在符合增加CN、删除CN界面的准入条件下,找低峰期时间窗进行操作。

准入条件:

1.增加CN要求集群状态正常(集群状态为Normal,非均衡,低性能状态)

2.如果存在一个节点故障,只允许删除该节点的CN

3.如果存在两个以上的节点故障,不允许删除CN

4.增加或删除CN失败,最新版本通过界面重入即可。

5.最少保留两个CN,最大支持20个CN

界面操作步骤:

1.增加cn

找到集群,点击 “更多”

展开更多后,点击“管理cn节点”

展开“管理cn节点”

点击“点击增加cn节点”,选择需要增加cn的个数,“点击确认”即可

2.删除cn

同上,“点击删除cn节点”

勾选需要删除cn的节点前的复选框,“点击确认”即可

针对业务的影响:

pg_advisory_lock影响的操作:用户业务等待锁不报错(设置了enable_online_ddl_waitlock ), 影响用户DDL,DCL,truncate,vacuum,analyze,lock等操作(非DML操作)

影响时间:锁集群时间=增量build耗时,一般小于20分钟。

可能出现的情况:

1.增量build CN阶段之前会进行短暂的锁集群(pg_advisory_lock),如果有长事务中未提交的业务一直在执行,就会出现等锁的情况,重试3次每次1个小时,还是不能加上锁,增加CN操作会失败回滚退出。

备注:每个CN都有可能出现等锁的现象,如果要查询可以通过如下语句进行查询

select * from pg_locks where classid=65535 and classid=65535 and locktype='advisory' and mode = 'ShareLock' and granted='t';

2.增量build CN阶段,如果业务下发了DDL操作,会出现界面端没有返回成功的情况,类似于hang的现象,等待增量build完成,DDL提交成功,业务界面侧返回成功。

3.删除CN,如果使用到了LVS负载均衡,因为lvs存在重试机制,cn会出现短暂的连接失败。

4.业务低峰期和高峰期,分别进行增加CN的操作,全量build耗时可能存在超过1倍以上的耗时差异,感知上时间会增长,是因为业务并发过大时,会与cn的build阶段进行IO争抢,增加cn加锁阶段也会有所延迟。

5.增删CN阶段,不支持其他类集群运维操作,例如:升级、扩容、温备修复、快照等

 

点击关注,第一时间了解华为云新鲜技术~

与数仓在线运维:如何进行在线增删CN?相似的内容:

数仓在线运维:如何进行在线增删CN?

摘要:集群运行过程中,根据集群的综合负载和业务接入情况进行分析:增加CN可以适当降低CPU消耗,增大接入连接数,分散CN节点业务压力,根据实际情况来识别是否要增加CN,如果是提升集群容量和扩展比能力,建议进行扩容操作。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维-在线增

5个高并发导致数仓资源类报错分析

摘要:集群运行过程中,有时候会执行并发量比较高的业务场景,一些数据库没有为这种高并发作业配置合适的参数,会导致作业大量报错,这篇文章让你玩转并发作业。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维 - 高并发导致资源类报错分析解决》,作者:323老四。 集群运行过程中,有

教你处理数仓慢SQL常见定位问题

摘要:通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL数量上升等现象,或者业务出现超时报错时,优先应排查是否出现慢SQL。 本文分享自华为云社区《GaussDB慢SQL常见定位处理手段》,作者:酷哥。 关键指标 通常在运维监控出现CPU使用率较高、P80/P95指标较高、慢SQL

数仓专家面对面 | 为什么我选择GaussDB(DWS)

摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗? 导语 数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。 你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗? 今天我们邀请到了华为云数据仓库

数仓性能调优:大宽表关联MERGE性能优化

摘要:本文主要为大家讲解在数仓性能调优过程中,关于大宽表关联MERGE性能优化过程。 本文分享自华为云社区《GaussDB(DWS)性能调优:大宽表关联MERGE性能优化》,作者:譡里个檔。 【业务背景】 如下MERGE语句执行耗时长达2034s MERGE INTO sdifin.hah_ae_l

数仓性能调优:如何进行函数下推

摘要:本文主要描述下函数在满足特征的前提下可以把函数属性定义为下推属性。 本文分享自华为云社区《GaussDB(DWS)性能调优:函数下推》,作者:譡里个檔 。 DWS作为MPP架构的数仓产品,其性能优势主要在分布式计算上。默认情况下,DWS为了保证结果的正确性,自定义函数默认属性是不下推的,这会导

优化数仓业务视图:过滤条件传递

摘要:在业务功能实现时,经常会用到视图简化查询SQL。但有时候会因为视图降低查询效率,本文主要分析在业务需求满足的情况下,将有效的过滤条件传递到基表,减少运算过程中数据库需要处理的数据量,提升SQL执行效率。 本文分享自华为云社区《GaussDB(DWS)业务视图优化-过滤条件传递》,作者:卫小毛

详解数仓的向量化执行引擎

本文分享自华为云社区《GaussDB(DWS)向量化执行引擎详解》,作者: yd_212508532。 前言 适用版本:【基线功能】 传统的行执行引擎大多采用一次一元组的执行模式,这样在执行过程中CPU大部分时间并没有用来处理数据,更多的是在遍历执行树,就会导致CPU的有效利用率较低。而在面对OLA

实时数仓构建:Flink+OLAP查询的一些实践与思考

以Flink为主的计算引擎配合OLAP查询分析引擎组合进而构建实时数仓**,其技术方案的选择是我们在技术选型过程中最常见的问题之一。也是很多公司和业务支持过程中会实实在在遇到的问题。 很多人一提起实时数仓,就直接大谈特谈Hudi,Flink的流批一体等,但实际上,**实时数仓包括任何架构体系的构建如...

解读数仓常用模糊查询的优化方法

摘要:本文讲解了GaussDB(DWS)上模糊查询常用的性能优化方法,通过创建索引,能够提升多种场景下模糊查询语句的执行速度。 本文分享自华为云社区《GaussDB(DWS) 模糊查询性能优化》,作者: 黎明的风 。 在使用GaussDB(DWS)时,通过like进行模糊查询,有时会遇到查询性能慢的