使用Kettle定时从数据库A刷新数据到数据库B

使用,kettle,定时,数据库,刷新,数据 · 浏览次数 : 494

小编点评

## Summary of the content This document provides instructions on how to use Kettle to periodically increase the data in table `a` of database `a` to table `b` of database `b`. **Requirements:** * Kettle must be installed and running. * A driver jar for MySQL must be prepared. * A data source and target data source must be created. * A transformation process with an input and output node must be configured. **Steps:** 1. **Download and Install Driver Jar:** * Download the latest driver jar from the Pentaho website. * Copy the driver jar to the `lib` directory in the Kettle installation directory. 2. **Create Data Sources:** * Create two data sources: * Source database. * Target database. * Configure the source and target data sources. 3. **Configure Transformation Process:** * Add an input node for the source data. * Add an input node for the target data. * Add a transformation node between the input and output nodes. * Configure the input node with a data source and the output node with a target data source. * Set a condition in the input node using the `WHERE` clause to only include rows where the data creation date is greater than or equal to the current date. 4. **Create and Run the KTR File:** * Create a `ktr` file with the name `table_transfer.ktr`. * Copy the `ktr` file to the `/home/admin/kettle/ktr` directory on the Linux system. * Set up a cron job on the Linux system to run the `pan.sh` script every day at 1:00 AM. * Use the `crontab` command to configure the cron job. 5. **Verify and Monitor Execution:** * Check the log file for any errors or warnings. * Verify that the scheduled task runs successfully by checking the log file. **Additional Notes:** * The `pan.sh` script assumes the `ktr` file is located in the `/home/admin/kettle/ktr` directory. Adjust the script path if necessary. * The cron schedule in this example runs the script every day at 1:00 AM. Modify the schedule to suit your needs. * Ensure that the `ktr` file and necessary libraries are available on the Linux system where the script is executed.

正文

一、需求背景

由于项目场景原因，需要将A库(MySQL)中的表a、表b、表c中的数据定时T+1 增量的同步到B库(MySQL)。这里说明一下，不是数据库的主从备份，就是普通的数据同步。经过技术调研，发现Kettle挺合适的，原因如下：

Kettle （数据抽取、清洗、转换、装载）是由java 编写,可以在 Window、Linux、Unix 上运行。支持多数据源, 多种中间件的专业ETL 工具；
可视化界面支持图形化GUI设计界面，组件多样性，支持组件拖拉拽，不用写额外的代码；
Kettle的流程图本质上都是配置文件，如.ktr/.kjb文件。这种设计的好处就是，当我们把转换流程图画完之后，可以直接复制到另外一个环境中运行，如：在Windows电脑上画好流程图，复制到Liunx系统上运行。
免费、组件多、支持开源，一般处理T+1的数据同步是没有问题的。如果并发高、实时性高、数据量大就建议使用Flink了。

二、使用方式

1. 安装包下载

官网地址：https://sourceforge.net/projects/pentaho/files/Data%20Integration/

2. 启动方式

Windows点击Spoon.bat启动

出现以下图片表示正在启动，如果一直没有反应，使用管理员身份运行。

主界面如下：

三、连接MySQL数据库

1. 准备MySQL连接驱动jar包

由于Kettle自身是不带任何数据库驱动包的，所以这里我们需要先自己准备好驱动包，版本最好选择5.1.49。下载好jar包后，拷贝到lib目录下（Windows和Linux同理）。如果已经启动了Kettle，则需要关掉重新启动，否则驱动包不会被加载。

2. 创建数据源

依次点击：转换——>主对象树——>DB连接——>点击新建——>测试

同上操作，创建好两个数据源：源数据库、目标库；目标就是将源数据库中的表数据同步到目标库中去

3. 配置转换流程

① 加入输入节点：转换——>输入——>表输入

② 双击输入节点打开配置页，输入一下信息

这里因为我是定时T+1 增量同步数据，所以我加了个同步条件WHERE gmt_create >= CURDATE()表示该数据创建时间大于当天才会进行查询。

点击预览，正好有一条数据

③加入转换节点：转换——>插入/更新——>按住shift建立连接

④ 双击插入/更新节点，打开配置页

⑤ 点击运行测试

四、复制ktr文件到Liunx上定时运行

在Linux上，ktr文件使用Kettle的pan.sh脚本运行，命令大致如下：sh /home/admin/kettle/data-integration/pan.sh -file=/home/admin/kettle/ktr/table_transfer.ktr -norep。同时为了实现定时执行这个脚本，我打算用Linux自带的corntab功能设置定时。

首先我编写了一个shell脚本，命名为cornSql.sh，用于保存ktr的执行命令，内容如下：

#!/bin/bash 
export KETTLE_HOME=/home/admin/kettle/data-integration
export JAVA_HOME=/usr/java/jdk1.8.0_131
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin:${KETTLE_HOME}
export JRE_HOME=${JAVA_HOME}/jre

TIME=$(date "+%Y%m%d")
sh /home/admin/kettle/data-integration/pan.sh -file=/home/admin/kettle/ktr/table_transfer.ktr -norep >>/home/admin/kettle/log/transfer-"$TIME".log

复制

其次，将ktr脚本拷贝到指定目录下，也就是/home/admin/kettle/ktr目录下，输入 crontab -e，再输入0 1 * * * /home/admin/kettle/cornSql.sh，这句话的意思是每天凌晨1点定时执行cornSql.sh脚本
为了检查定时配置是否生效，这里可以使用 crontab -l -u root命令，如果刚才的定时指令有打印出来，则证明配置生效。

最后，第二天检查一下执行日志文件有没有生成，在/home/admin/kettle/log目录下，这里我把每天执行的日期打印出来了，如下图：

使用Kettle定时从数据库A刷新数据到数据库B

小编点评

正文

一、需求背景

二、使用方式

1. 安装包下载

2. 启动方式

Windows点击Spoon.bat启动

三、连接MySQL数据库

1. 准备MySQL连接驱动jar包

2. 创建数据源

依次点击：转换——>主对象树——>DB连接——>点击新建——>测试

3. 配置转换流程

① 加入输入节点：转换——>输入——>表输入

② 双击输入节点打开配置页，输入一下信息

③加入转换节点：转换——>插入/更新——>按住shift建立连接

④ 双击插入/更新节点，打开配置页

⑤ 点击运行测试

四、复制ktr文件到Liunx上定时运行

与使用Kettle定时从数据库A刷新数据到数据库B相似的内容：

使用Kettle定时从数据库A刷新数据到数据库B

kettle从入门到精通第六十九课 ETL之kettle kettle cdc mysql，轻松实现实时增量同步

kettle从入门到精通第七十课 ETL之kettle kettle数据校验，脏数据清洗轻松拿捏

kettle从入门到精通第六十七课 ETL之kettle 再谈kettle阻塞，阻塞多个分支的多个步骤

kettle从入门到精通第六十六课 ETL之kettle kettle阻塞教程，轻松获取最后一行数据，so easy

使用Cloudflare Worker加速docker镜像

使用C#/.NET解析Wiki百科数据实现获取历史上的今天

Pybind11和CMake构建python扩展模块环境搭建

说说RabbitMQ延迟队列实现原理？

使用FModel提取游戏资产

# 热门排行