mysql 大表如何ddl 👑

mysql,如何,ddl · 浏览次数 : 634

小编点评

## urma阅读的知识点: 1. **大表执行ddl语句时,要注意千万小心,避免业务阻塞,数据库io和cpu飙高的情况** 2. **Online ddl 是在执行ddl语句时,不会阻塞DML语句,所以我们称这样的ddl为online ddl** 3. **ddl 的算法参数选项包括 copy、Inplace、INSTANT** 4. **INSTANT 算法执行期间 都是可以执行DML语句的,所以我们称使用这两种算法的ddl语句为online ddl** 5. **使用Online ddl 时,要注意业务也有可能阻塞,因为online ddl 在提交表定义阶段是会获取MDL排他锁的,如果有其他事务获取了MDL读锁,那么online ddl 语句也会阻塞住,从而导致发生在ddl语句执行时间点后面的那些需要获取MDL锁的sql阻塞掉** 6. **Inplace 算法不是不会产生数据的复制,只是复制期间,不会阻塞dml语句的执行** 7. **mysql5.7 中,例如我们执行下面的ddl 加字段的语句,ALTER TABLE tbl_name ADD COLUMN column_name column_definitionmysql会去判断当前执行的ddl语句类型能不能用online ddl inplace 方式,如果能用,那么它就会采用。** 8. **具体哪些ddl操作类型支持inplace 算法,可以查看官方文档链接** 9. **在大表上执行ddl时,由于ddl过程比较长,还是有可能会出现Duplicate entry 错误,因为add column ddl期间,会发生表的 rebuild,相当于新建一个临时表然后对旧表进行拷贝,但是ddl期间还是允许业务修改,插入数据,所以online ddl将执行期间新的修改记录到一个叫做row_log的对象里,在ddl最后阶段,将mdl锁升级为排它锁,然后将row_log对象中的数据和新表的数据进行合并,这样就达到了ddl期间兼容dml操作的目的** 10. **应用row log的过程是不允许报错,如果期间发生了报错就会导致ddl回滚,因为在ddl期间,记录了相同唯一键的数据,所以在应用row log的时候,产生了报错** 11. **官方也给出了online ddl 报错的场景,连接如下** **结论:** Online ddl 是一个非常有效的解决方案,可以有效地处理大表中的添加字段问题,但是需要注意千万小心,避免业务阻塞,数据库io和cpu飙高的情况。

正文

大家好,我是蓝胖子,mysql对大表(千万级数据)的ddl语句,在生产上执行时一定要千万小心,一不小心就有可能造成业务阻塞,数据库io和cpu飙高的情况。今天我们就来看看如何针对大表执行ddl语句。

通过这篇文章,你能了解到下面的知识点,

Pasted image 20230831165346.png

传统ddl 和online ddl的区别

mysql的ddl 经过了几个版本的演进,Online DDL这个特性是在MySQL5.6.7开始支持,在此之前mysql执行ddl语句时,会生成新表,然后将原表数据复制到新表,整个过程是会阻塞DML语句的。

online ddl 定义其实就是在执行ddl语句时,不会阻塞dml语句,那么我们就称这样的ddl为online ddl

ddl 的算法参数选项又分为 copy, Inplace, INSTANT ,其中copy就是之前传统ddl执行的过程,会阻塞dml语句。Inplace, INSTANT 算法执行期间 都是可以执行DML语句的,所以我们称使用这两种算法的ddl语句为online ddl。

📢📢 但需要注意的是,并不是所有的ddl操作都支持这两种算法,具体什么ddl操作类型支持什么算法需要去查阅官方文档。

INSTANT 算法是mysql8.0 以后新加的,它能在秒级别对千万级别的大表进行加字段操作,至于其他ddl 语句类型是不是也支持INSTANT 算法,需要去看下官网了,由于我们线上还是使用的mysql5.7 ,所以我还是会给予mysql5.7去进行分析。

在mysql5.7中,例如我们执行下面的ddl 加字段的语句,

ALTER TABLE tbl_name ADD COLUMN column_name column_definition

mysql会去判断当前执行的ddl语句类型能不能用online ddl inplace 方式,如果能用,那么它就会采用。

使用Inplace算法的ddl语句,执行过程分为3个阶段,

阶段1: Initialization初始化

在初始化阶段,服务器将考虑存储引擎功能、语句中指定的操作以及用户指定的ALGORITHM和LOCK选项,确定操作期间允许多少并发性。在此阶段,使用一个可升级MDL读锁来保护当前表定义。

阶段2:Execution执行

如果评估阶段发现ddl语句不能使用inplace算法,则会将mdl读锁升级为排它锁,阻塞DML语句执行。并且,这个阶段,会真正的执行ddl语句。

阶段3:Commit Table Definition 提交表定义

在提交表定义阶段,MDL读锁升级为MDL排他锁,以排除旧表定义并提交新表定义。一旦授予,独占MDL锁的持续时间就会很短。

可以看到如果使用inplcae 算法,只有在任务提交阶段(时间很短), ddl才会阻塞dml语句,因为任务提交阶段会持有MDL 排他锁,而DML 语句执行时需要获取MDL读锁,所以在此期间,DML语句会被阻塞。

具体哪些ddl操作类型支持Inplace 算法,可以查看官方文档链接,比如下面的mysql5.7的文档

https://dev.mysql.com/doc/refman/5.7/en/innodb-online-ddl-operations.html

如下图所示,可以发现mysql5.7对加字段的ddl 支持inplace 算法,不过执行期间需要rebuild table即建立新表,并且运行并发的dml语句执行。但是改变字段数据类型ddl,则只能按copy算法进行执行。

inplace 算法不是不会产生数据的复制,只是复制期间,不会阻塞dml语句的执行。

Pasted image 20230831173151.png

mysql ddl 的陷阱

online ddl机制是否一定不会阻塞业务?

接着我们来看下ddl时使用inplcae 算法(online ddl)是不是一定不会阻塞业务,其实答案是显而易见的,业务也有可能阻塞,因为online ddl 在提交表定义阶段是会获取MDL排他锁的,如果有其他事务获取了MDL读锁,那么online ddl 语句也会阻塞住,从而导致发生在ddl语句执行时间点后面的那些需要获取MDL锁的sql阻塞掉。具体的操作例子可以查看mysql官方给出的一个例子,

https://dev.mysql.com/doc/refman/5.7/en/innodb-online-ddl-performance.html

Pasted image 20230901163914.png

ddl 过程中从库的延迟性

ddl的第二个陷阱是要注意从库的延迟性,比如mysql5.7加新列,虽然默认可以使用inplace算法来让dml语句不阻塞,但是建立新列还是需要表的rebuild操作,如果是大表,整个过程还是很慢的,如果从库只开启了一个线程去执行主从复制,就会导致主从库间出现极大的延迟。

解决办法是开启并行复制,可以用下面的语句在从库上执行,查看从库是否开启了并行复制

SHOW VARIABLES LIKE 'slave_parallel_workers';

online ddl Duplicate entry...错误

虽然使用inplace算法的ddl (online ddl) 可以不阻塞业务操作,但是在大表上执行时,由于ddl过程比较长,还是有可能会出现Duplicate entry 错误。下面我来介绍下它出现的场景,比如一张几千万的表,里面有一个唯一键,在add column ddl期间,对表进行插入,并且插入的值刚好就触发了唯一键约束。那么最后ddl再快完成的时候就会出现这个错误。

这是由于add column ddl期间,会发生表的rebuild,相当于新建一个临时表然后对旧表进行拷贝,但是ddl期间还是允许业务修改,插入数据,所以online ddl将执行期间新的修改记录到一个叫做row_log的对象里,在ddl最后阶段,将mdl锁升级为排它锁,然后将row_log对象中的数据和新表的数据进行合并,这样就达到了ddl期间兼容dml操作的目的。

但是应用row log的过程是不允许报错,如果期间发生了报错就会导致ddl回滚,因为在ddl期间,记录了相同唯一键的数据,所以在应用row log的时候,产生了报错。

官方也给出了online ddl 报错的场景,连接如下

https://dev.mysql.com/doc/refman/5.7/en/innodb-online-ddl-failure-conditions.html

其实我认为本质原因是mysql5.7 执行add column 的ddl时间还是太长了,在这么长时间里可能就会发生业务对相同唯一键的插入操作,如果能缩短ddl执行时间应该就能很大程度避免这种问题。

mysql8.0 在add column 时可以采用instance 算法,能达到秒级别的加新字段的操作,理论上可以避免这个错误。

如果不是mysql8.0 ,又想对千万级的大表添加字段,又要避免Duplicate entry 错误,那么可以使用pt-online-schema-change这个工具。

pt-online-schema-change 工具进行字段添加

下面我就来简单的介绍下pt-online-schema-change,它对表结构的修改原理是创建一张新表(拥有最新的表定义),然后在旧表上创建delete,update,insert的触发器,来对增量数据进行更新,对旧表数据采取insert ignore 新表 select 老表 LOCK S 的方式进行分块拷贝,最后拷贝完成后,在一个事务里对旧表进行删除,新表进行重命名,这样就完成了对表结构的变更。

同时在变更期间,你能够通过下面的参数控制从库延迟

  • --max-lag
    • 默认1s
    • 检查从库延迟的时间,如果超过,则停止copy data,休息--check-interval秒后,再重新开始copy数据
    • 查看通过延迟时间,是通过从库show slave status,查看Seconds_Behind_Master
    • 如果指定--check-slave-lag,该工具只检查该服务器的延迟,而不是所有服务器。
  • --check-interval
    • 从库延迟超过指定的--max-lag,中断copy data休息的时间
    • 默认为1s

下面是pt-online-schema-change 语句执行的完整示例,它同时会列出拷贝过程完成的百分比。

pt-online-schema-change --alter "add pkg_source tinyint(2) default 0 not null;" h=主机ip,P=端口,p=密码,u=用户名,D=数据库名,t=表明  --recursion-method=none  --execute --statistics

如果你的ddl需要拷贝表,那么用pt-online-schema-change 工具再合适不过了。

与mysql 大表如何ddl 👑相似的内容:

mysql 大表如何ddl 👑

大家好,我是蓝胖子,mysql对大表(千万级数据)的ddl语句,在生产上执行时一定要千万小心,一不小心就有可能造成业务阻塞,数据库io和cpu飙高的情况。今天我们就来看看如何针对大表执行ddl语句。 通过这篇文章,你能了解到下面的知识点, ![Pasted image 20230831165346.

Mysql数据库部分管理命令极简学习总结

背景 今天遇到一个得很奇怪的问题. Mysql一个运行时间很长的select阻塞了对select里面左连接表做create index 操作的SQL 当时感觉不应该, 一直以为读锁不会与独占更新锁互斥. 经过与公司数据库大牛沟通, 得出结论如下: 在mysql做ddl语句的时候一定要特别小心 sel

MySQL 分表查询

分表是一种数据库分割技术,用于将大表拆分成多个小表,以提高数据库的性能和可管理性。在MySQL中,可以使用多种方法进行分表,例如基于范围、哈希或列表等。下面将详细介绍MySQL如何分表以及分表后如何进行数据查询。 基于哈希的分表 基于哈希的分表是一种将数据分散到多个子表中的数据库分表策略。这种方法通

mysql大表修改工具: pt-online-schame-change

在表数据量很大的时候直接添加字段,以及其他表结构修改,会严重影响线上使用,而且耗费时间很长;使用这个工具可以很好的在线修改表结构。 好处: 降低主从延时的风险 可以限速、限资源,避免操作时MySQL负载过高 建议: 在业务低峰期做,将影响降到最低 直接原表修改缺点: 当表的数据量很大的时候,如果直接

【转帖】MySQL 8.0 hash join有重大缺陷?

我并不这么看。 友情提醒:本文建议在PC端阅读。 徐春阳老师发文爆MySQL 8.0 hash join有重大缺陷。 文章核心观点如下:多表(比如3个个表)join时,只会简单的把表数据量小的放在前面作为驱动表,大表放在最后面,从而导致可能产生极大结果集的笛卡尔积,甚至耗尽CPU和磁盘空间。 就此现

深入MySQL索引,这篇千万不能错过

大家好,我是【码老思】,索引是一个数据库绕不开的话题,今天和大家一起聊聊。 1. 索引 索引是对数据库表中一列或多列的值进行排序的一种结构。 MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。索引只是提高效率的一个因素,如果你的MySQL有大数据量的表,就

MYSQL造数据占用临时表空间

在MySQL中,临时表空间通常用于存储如ORDER BY、GROUP BY、DISTINCT、UNION、JOIN等操作中产生的临时数据。当这些操作的数据集太大而无法在内存中完成时,MySQL会使用磁盘上的临时表空间。 一、MYSQL造数据占用临时表空间的方法 以下是一些方法,我们可以通过它们来“造

[转帖]阿里规范 - 五、MySQL 数据库 - (一)建表规约 - 8 - 【强制】varchar 是可变长字符串,不预先分配存储空间,长度不要超过 5000,如果存储长 度大于此值,定义字段类型为 text,独立出来一张表,用主键来对应,避免影响其它字段索 引效率。

字段类型为 text,独立出来一张表,用主键来对应,避免影响其它字段索 引效率。 1、因为mysql 是行存储模式,所以会把整行读取出来。text 储存了大量的数据。读取时,占了大量的io。所以会十分的慢。 2、每行的数据过大 行溢出 InnoDB 会将一些大对象数据存放在数据页之外的 BLOB 页

【解惑】介绍三大数据库的with语句的写法及使用场景

WITH 子句通常被称为 "Common Table Expressions"(CTE),俗称内存临时表,当使用 WITH 语句时,应注意具体的数据库版本和支持情况。以下是对 MySQL、Microsoft SQL Server(MSSQL)和 Oracle 数据库的 WITH 语句用法示例,以及在

云图说丨云数据库GaussDB(for MySQL)事务拆分大揭秘

摘要:数据库代理提供事务拆分的功能,能够将事务内写操作之前的读请求转发到只读节点,降低主节点负载。 本文分享自华为云社区《【云图说】第270期 云数据库GaussDB(for MySQL)事务拆分大揭秘》,作者:阅识风云。 默认情况下,云数据库GaussDB(for MySQL)数据库代理会将事务内