[转帖]tikv下线Pending Offline卡住排查思路

tikv,下线,pending,offline,卡住,排查,思路 · 浏览次数 : 0

小编点评

**现象** 1. tikv缩容后,tiup状态一直处于 Pending Offline 状态,命令操作如下:`tiup cluster scale-in tidb-cluster --node ip:201602`. 2. 确认其他tikv目录容量是否够,每个tikv至少要拥有80%的存储空间才能进行数据迁移操作。 **排查思路** 1. **检查环境** * 确保tikv的副本数量至少达到3个,因为当一个tikv下线时,数据需要迁移到其他tikv上。 2. **手动检查下线节点的容量** * 查看pd的日志,找出哪个节点的容量不够,并根据该节点数量调整下线数量。 3. **重启tikv** * 确保其他节点也是重启的,以确保迁移过程正常完成。 4. **设置pd参数** * 设置`max-pending-peer-count`和`region-schedule-limit`参数,以提高创建任务并发数量。 * `max-pending-peer-count`: 设置一个上限,表示同时创建的任务数量。 * `region-schedule-limit`: 设置一个上限,表示每次迁移的区域数量。 **结论** 通过设置参数,可以优化tikv的迁移速度,提高创建任务并发数量。

正文

https://tidb.net/blog/5e960334?utm_source=tidb-community&utm_medium=referral&utm_campaign=repost

 

 
【首发渠道】TiDB 社区
 
【目录】
 
一、现象
 
二、排查思路
 
【正文】
 
一、现象

 

1.tikv缩容后,tiup状态一直处于 Pending Offline 状态,命令操作如下:

tiup cluster scale-in tidb-cluster --node ip:20160

2.通过命令 tiup cluster display 集群名字,找到pd

image

通过命令可以看到对应节点的store状态是offline,region_count和used_size没有减少,tiup ctl:v5.0.1 pd -u http://10.33.2.43:2379 store,下面的store id是1

image

二、排查思路

1.先检查环境,tikv的副本因为默认是3个,所以存活的tikv节点不能少于3个,例如只有3个tikv,现在要下线一个,那数据是不会迁移的,需要扩容tikc后才会进行数据迁移操作。

2.下线的tikv中数据需要迁移到其他tikv上,那首先确认其他tikv目录容量是否够,这个手动检查下加上查看pd的日志可以看到哪个节点的容量不够,正常目录使用超过80%就迁不过去了。

3.tikv是上报存活到pd上的,如果pd重启后tikv最好也重启下,连接不上pd的话tikv最好重启下,命令如下.其他节点也是这样重启,这里网络如果出现问题也会导致这个问题,tikv的迁移tikv和pd的日志都会有输出,重点看下日志也没有报错。

 
tiup cluster restart tidb-zabbix --node tikv:port

 

4.有些迁移很慢,这里看下tidb-grafana的监控,着重看以下几个,pd视图下-Operator下的“Schedule operator create”(创建任务), ”Schedule operator finish“(任务完成),迁移就会有创建任务,

image

那如何提高这个创建任务的并发数量,调度的操作全靠pd,所以限制的开关就在pd上面,操作如下:

 
tiup ctl:v5.0.1 pd -u http://10.33.2.43:2379 -i; #进入交互界面
 
config show; #重点看2个参数就可以了

 

“max-pending-peer-count”: 16, #reginon同时下线的并发量

 
“region-schedule-limit”: 16, #region调度的数量
 
#设置参数如下,config set 参数 值
 
config set region-schedule-limit 16

 

#这里说明下,tikv下线主要就是region迁移,所以就靠2个参数,调大就能增快速度。

 
#以上就是我多次下线tikv碰到的问题和处理心得,希望对大家有用

 

与[转帖]tikv下线Pending Offline卡住排查思路相似的内容:

[转帖]tikv下线Pending Offline卡住排查思路

https://tidb.net/blog/5e960334?utm_source=tidb-community&utm_medium=referral&utm_campaign=repost 【首发渠道】TiDB 社区 【目录】 一、现象 二、排查思路 【正文】 一、现象 1.tikv缩容后,ti

[转帖]TiKV 缩容不掉如何解决?

https://tidb.net/book/tidb-monthly/2022/2022-04/usercase/tikv TiKV节点缩容不掉,通常遇到的情况: 1、经常遇到的情况是:3个节点的tikv集群缩容肯定会一直卡着,因为没有新节点接受要下线kv的region peer。 2、另外就是除缩

[转帖]TiKV 缩容不掉如何解决?

TiKV节点缩容不掉,通常遇到的情况: 1、经常遇到的情况是:3个节点的tikv集群缩容肯定会一直卡着,因为没有新节点接受要下线kv的region peer。 2、另外就是除缩容tikv外,剩下的KV硬盘使用情况比较高,到达schedule.high-space-ratio=0.6的限制,导致该ti

[转帖]TiKV 多副本丢失以及修复实践

https://tidb.net/blog/ad45bad9#6%E6%80%BB%E7%BB%93 1实验目的 随着tidb使用场景的越来越多,接入的业务越来越重要,不由得想试验下tidb组件的高可用性以及故障或者灾难如何恢复,恢复主要涉及的是pd组件和tikv组件,本文主要涉及tikv组件, p

[转帖]038-拯救大兵瑞恩之 TiDB 如何在 TiKV 损坏的情况下恢复

https://tidb.net/blog/4b5451bb?utm_source=tidb-community&utm_medium=referral&utm_campaign=repost#%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99 很喜欢TiDB的设计哲学,比如,

[转帖]使用 TiUP 扩容缩容 TiDB 集群

https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup TiDB 集群可以在不中断线上服务的情况下进行扩容和缩容。 本文介绍如何使用 TiUP 扩容缩容集群中的 TiDB、TiKV、PD、TiCDC 或者 TiFlash 节点。如未

[转帖]TiUP 命令概览

https://docs.pingcap.com/zh/tidb/stable/tiup-reference TiUP 在 TiDB 生态中承担包管理器的功能,管理着 TiDB 生态下众多的组件,如 TiDB、PD、TiKV 等。 语法 tiup [flags] [args...

[转帖]使用 TiUP 扩容缩容 TiDB 集群

https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup TiDB 集群可以在不中断线上服务的情况下进行扩容和缩容。 本文介绍如何使用 TiUP 扩容缩容集群中的 TiDB、TiKV、PD、TiCDC 或者 TiFlash 节点。如未

[转帖]使用 TiUP 扩容缩容 TiDB 集群

https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup TiDB 集群可以在不中断线上服务的情况下进行扩容和缩容。 本文介绍如何使用 TiUP 扩容缩容集群中的 TiDB、TiKV、PD、TiCDC 或者 TiFlash 节点。如未

[转帖]Region 性能调优

https://docs.pingcap.com/zh/tidb/v6.5/tune-region-performance 本文介绍了如何通过调整 Region 大小等方法对 Region 进行性能调优以及如何在大 Region 下使用 bucket 进行并发查询优化。 概述 TiKV 自动将底层数