[转帖]使用逻辑导入模式

使用,逻辑,导入,模式 · 浏览次数 : 0

小编点评

**TiDB Lightning 逻辑导入模式配置及使用说明** **配置文件:lightning.conf** ``` # 日志级别 log-level = "info" # 文件路径 file = "tidb-lightning.log" # 最大文件大小 max-size = 128 # MB # 最大导入天数 max-days = 28 # 备份数量 max-backups = 14 # 启动检查集群条件 check-requirements = true # 本地源数据目录 data-source-dir = "/data/my_database" # tidb 库的日志级别 tikv-importer = { backend = "tidb" } # 逻辑导入配置 data-source-dir = "/data/my_database" tikv-importer = { backend = "tidb" } # 设置冲突数据检测策略 on-duplicate = "replace" ``` **参数:** * **region-concurrency**:指定逻辑导入模式下的并发写入数。默认值为 CPU 核数。 * **raftstore.apply-pool-size**和**raftstore.store-pool-size**:用于raftstore的并发操作数量。默认值分别为 CPU 核数和 16。 **使用说明:** 1. 创建一个名为 `lightning.conf` 的配置文件。 2. 在 TiDB 集群中启动 TiDB Lightning。 3. 配置逻辑导入参数。 4. 启动数据导入。 **注意:** * 逻辑导入模式需要目标 TiDB 集群的写入性能足够。 * 当数据源中的记录存在冲突数据时,逻辑导入将使用不同的 SQL 语句进行插入。 * 可以通过`region-concurrency`和`raftstore.apply-pool-size`等参数优化导入速度。

正文

https://docs.pingcap.com/zh/tidb/stable/tidb-lightning-logical-import-mode-usage#%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98

 

配置及使用

可以通过以下配置文件使用逻辑导入模式执行数据导入:

[lightning] # 日志 level = "info" file = "tidb-lightning.log" max-size = 128 # MB max-days = 28 max-backups = 14 # 启动之前检查集群是否满足最低需求。 check-requirements = true [mydumper] # 本地源数据目录或外部存储 URI。关于外部存储 URI 详情可参考 https://docs.pingcap.com/zh/tidb/v6.6/backup-and-restore-storages#uri-%E6%A0%BC%E5%BC%8F。 data-source-dir = "/data/my_database" [tikv-importer] # 导入模式配置,设为 tidb 即使用逻辑导入模式 backend = "tidb" # 逻辑导入模式插入重复数据时执行的操作。 # - replace:新数据替代已有数据 # - ignore:保留已有数据,忽略新数据 # - error:中止导入并报错 on-duplicate = "replace" [tidb] # 目标集群的信息。tidb-server 的地址,填一个即可。 host = "172.16.31.1" port = 4000 user = "root" # 设置连接 TiDB 的密码,可为明文或 Base64 编码。 password = "" # tidb-lightning 引用了 TiDB 库,并生成产生一些日志。 # 设置 TiDB 库的日志等级。 log-level = "error"

TiDB Lightning 的完整配置文件可参考完整配置及命令行参数

冲突数据检测

冲突数据,即两条或两条以上的记录存在主键或唯一键列数据重复的情况。当数据源中的记录存在冲突数据,将导致该表真实总行数和使用唯一索引查询的总行数不一致的情况。TiDB Lightning 的逻辑导入模式通过 on-duplicate 配置冲突数据检测的策略,TiDB Lightning 根据策略使用不同的 SQL 语句进行插入。

策略冲突时默认行为对应 SQL 语句
replace 新数据替代旧数据 REPLACE INTO ...
ignore 保留旧数据,忽略新数据 INSERT IGNORE INTO ...
error 中止导入 INSERT INTO ...

性能调优

  • TiDB Lightning 的逻辑导入模式性能很大程度上取决于目标 TiDB 集群的写入性能,当遇到性能瓶颈时可参考 TiDB 相关性能优化文档

  • 如果发现目标 TiDB 集群的的写入尚未达到瓶颈,可以考虑增加 Lightning 配置中 region-concurrency 的值。region-concurrency 默认值为 CPU 核数,其含义在物理导入模式和逻辑导入模式下有所不同,逻辑导入模式的 region-concurrency 表示写入并发数。配置示例:

    [lightning] region-concurrency = 32
  • 调整目标 TiDB 集群的 raftstore.apply-pool-size 和 raftstore.store-pool-size 参数也可能提升导入速度。

与[转帖]使用逻辑导入模式相似的内容:

[转帖]使用逻辑导入模式

https://docs.pingcap.com/zh/tidb/stable/tidb-lightning-logical-import-mode-usage#%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98 配置及使用 可以通过以下配置文件使用逻辑导入模式执行数据导入:

[转帖]tidb-lightning 逻辑模式导入

https://docs.pingcap.com/zh/tidb/stable/tidb-lightning-configuration 本文档介绍如何编写逻辑导入模式的配置文件,如何进行性能调优等内容。 配置及使用 可以通过以下配置文件使用逻辑导入模式执行数据导入: [lightning] # 日

[转帖]使用 Dumpling 导出数据

16 Contributors 使用数据导出工具 Dumpling,你可以把存储在 TiDB 或 MySQL 中的数据导出为 SQL 或 CSV 格式,用于逻辑全量备份。Dumpling 也支持将数据导出到 Amazon S3 中。 要快速了解 Dumpling 的基本功能,建议先观看下面的培训视频

[转帖]linux shell中 if else以及大于、小于、等于逻辑表达式介绍

https://www.jb51.net/article/34332.htm 在linux shell编程中,大多数情况下,可以使用测试命令来对条件进行测试,这里简单的介绍下,方便需要的朋友 比如比较字符串、判断文件是否存在及是否可读等,通常用"[]"来表示条件测试。注意:这里的空格很重要。要确保方

[转帖]CPU、寄存器、内存、磁盘、网络性能分析

介绍 寄存器 最靠近 CPU 的控制单元和逻辑计算单元的存储器,就是寄存器了,它使用的材料速度也是最快的,因此价格也是最贵的,那么数量不能很多。 存储器的数量通常在几十到几百之间,每个寄存器可以用来存储一定的字节(byte)的数据。比如: 32 位 CPU 中大多数寄存器可以存储 4 个字节;64

[转帖]为什么redis的SDS的最大长度限制为512mb?

当客户端操作 client 时,一般不会直接使用 sds ,而是通过对象的方式来使用。比如创建的字符串其实是一个对象,间接使用到了 sds 结构。限制 512M 的逻辑在 t_string.c 的 checkStringLength 方法。 在redis3.2.13、redis4.0.14、redi

[转帖]Linux运维比较常用的一些脚本

目录 一、根据PID过滤进程所有信息 二、根据进程名过滤进程信息 三、根据用户名查询该用户的相关信息 四、加固系统的一些配置 五:实现磁盘分区的 六、使用一整块硬盘创建逻辑卷 七、将一块硬盘分区,然后分区设置为虚拟卷 一、根据PID过滤进程所有信息 #! /bin/bash# Author:谢公子#

[转帖]使用JMX服务监控Java程序性能

https://www.jianshu.com/p/3c3c836c1c20?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation 背景 单机收集服务器需要性能监控和测试。 JMX

[转帖]使用 tc netem 模拟网络异常

https://cizixs.com/2017/10/23/tc-netem-for-terrible-network/ 在某些情况下,我们需要模拟网络很差的状态来测试软件能够正常工作,比如网络延迟、丢包、乱序、重复等。linux 系统强大的流量控制工具 tc 能很轻松地完成,tc 命令行是 ipr

[转帖]使用 sysdig 进行监控和调试 linux 机器

https://cizixs.com/2017/04/27/sysdig-for-linux-system-monitor-and-analysis/ sysdig 简介 sysdig 官网 上对自己的介绍是: Open Source Universal System Visibility With