最近因为业务需求,我们需要将我们的订单表(一千三百万数据,并且每天已五万条速度增加)已订单类型分组迁移到新的业务表中,以降低我们订单表的大小,同时暂时杜绝订单表所带来的数据瓶颈问题,需求下来了,基本思路也要确定下来,我打算先将三天前的历史数据先跑到表里,待整个业务线迁移过后,我再将剩下的数据跑进去,思路确立了,我就轰轰烈烈的干了起来。
首先我理所当然的想用代码实现,我就吭哧吭哧的用go写了是个协程同时跑数据,用gorm v2的FindInBatches可以批量插入数据,sql为insert into XXX(字段) values (数据1,数据2)这样,中间遇到一个问题,我想可以快点结束,就用了分页查询,每次5000条,每个对象包含四十个字段,结果就报错Prepared statement contains too many placeholders,占位符太多,mysql一条语句最多支持65535,然后我就修改为1500条每次,刚开始确实很快,但是越到后面就发现分页查询到几秒、几十秒最后基本跑不下去了,这种方案分页查询太慢,pass。
接着我就直接在sql里面跑,用insert into XXX(字段1,字段2…) form select 条件,以前我跑百万数据的时候就用的这个语句,需要注意的是,select 查询的时候一定记得要给查询条件加上索引,避免全表扫描。因为全表扫描会导致数据加锁,数据量太多会让数据读写均无法操作,切记,一定要加索引,这种方案可以正常导入,但是时间比较长,有全表加锁的风险,慎用。
再然后我使用的是阿里云的数据湖分析工具(DLA,功能强大,强烈推荐),将我们的历史数据先导下来,然后使用load data快速导入数据的方法去导入数据,这个方法有个弊端就是需要将数据(文件较大)上传到服务器,并且需要是宿主机上,但是速度真的是很快,我选择的是这种方式导入数据,方便快捷。
最后一种就是下载指定字段的dump文件,然后进入到数据库用source命令将我们的dump文件执行就OK了,en…速度不敢恭维
以上几种方式,小数据量的迁移可以选择代码(只要为了锻炼写代码能力)或者insert into select from,中数据量的可以使用mysqldump去迁移数据,大数据量还是推荐使用load data快速导入的方式去迁移数据。