kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy

kettle,etl,so,easy · 浏览次数 : 2

小编点评

文章标题:在同步数据后记录同步结果的方法及Blocking step配置 场景:ETL沟通交流群内小伙伴反馈如何在同步一批数据完成之后记录下同步结果。本文将通过一个简单示例,演示如何使用Blocking step进行阻塞处理,以及如何配置Blocking step以实现高效的数据同步。 解决方法:使用Blocking step进行阻塞处理。下面以从表t1同步数据至表t2为例,展示如何实现这一目标。在这个示例中,我们将在数据同步完毕后记录最后一条数据。 1. 图片日志显示,当前数据打印了三次,表输入和表输出也都执行了3次。 2. 图片日志显示,Blocking step 读取了三条数据,只写了一条数据。 3. 图片日志显示,Blocking step 后面的日志步骤只打印了最后一行数据。 如何配置Blocking step: 1. 双击Blocking step,打开配置项。 2. 在配置项中,Pass all rows?选项若不勾选,表输出步骤成功写入3条数据之后只有最后一条数据才会通过Blocking step步骤传递给之后的步骤。 3. 若勾选Pass all rows?选项,则表输出步骤成功写入3条数据之后所有数据都会通过Blocking step步骤传递给之后的步骤。 缓存大小配置:根据实际内存情况,调整缓存大小以优化性能。在本示例中,我们将缓存大小设置为1,但实际应用中需要根据机器内存情况进行调整。 通过以上配置,我们可以实现高效的数据同步。在同步过程中,Blocking step会阻塞处理,直到读取所有待同步数据并将其写入目标表。这样,在数据同步完成后,我们可以方便地记录下同步结果,如打印最后一条数据等。 总结:本文通过一个简单示例,展示了如何使用Blocking step进行阻塞处理以实现高效的数据同步,并提供了配置Blocking step和使用缓存大小优化性能的方法。希望本文对您有所帮助。

正文

场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。

解决:使用步骤Blocking step进行阻塞处理即可。

1、下面的demo演示从表t1同步数据至表t2(t1表中有三条数据,t2为空表,两个表表结构相同),然后数据同步完毕之后进行其他操作,这里的只是打个日志记录下最后一行数据,如下图所示:

1)从图片日志可以很清晰的看到,当前数据打印了三次,表输入和表输出也都执行了3次。

2)从图片日志可以很清晰的看到,Blocking step 读取了三条数据,只写了一条数据。

3)从图片日志可以很清晰的看到,Blocking step 后面的日志步骤只打印了最后一行数据。

 2、Blocking step配置,双击步骤打开配置项。

 Pass all rows?:若不勾选,表输出步骤成功写入3条数据之后只有最后一条数据才会通过Blocking step步骤传递给之后的步骤。如下图所示:

 3、Pass all rows?:若勾选,表输出步骤成功写入3条数据之后所有数据都会通过Blocking step步骤传递给之后的步骤。如下图所示:

 

1)从图片日志可以很清晰的看到,Blocking step 读取了三条数据,写了三条数据。

2)从图片日志可以很清晰的看到,虽然Blocking step 写了三条数据,但是执行顺序依然是在Blocking step的前置步骤表输出完毕之后。

 4、缓存大小配置,行数设置的越大,该步骤执行的效率也就越高,否则会频繁操作临时文件。

 上图步骤中将缓存大小设置为1,从日志来看Blocking step步骤就打印了“打开临时文件”,很显然缓存大小设置的行数太小会降低性能。这里使用的时候根据自己的机器实际内存情况来定。

 

与kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy相似的内容:

kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy

场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。 解决:使用步骤Blocking step进行阻塞处理即可。 1、下面的demo演示从表t1同步数据至表t2(t1表中有三条数据,t2为空表,两个表表结构相同),然后数据同步完

kettle从入门到精通 第六十九课 ETL之kettle kettle cdc mysql,轻松实现实时增量同步

1、之前kettle cdc mysql的时候使用的方案是canal+kafka+kettle,今天我们一起学习下使用kettle的插件Debezium直接cdc mysql。 注:CDC (Change Data Capture) 是一种技术,用于捕获和同步数据库中的更改。 1)Debezium步

kettle从入门到精通 第七十一课 ETL之kettle 再谈http post,轻松掌握body中传递json参数

场景: kettle中http post步骤如何发送http请求且传递body参数? 解决方案: http post步骤中直接设置Request entity field字段即可。 1、手边没有现成的post接口,索性用python搭建一个简单的接口,关键代码如下(安装python环境略): fro

kettle从入门到精通 第七十课 ETL之kettle kettle数据校验,脏数据清洗轻松拿捏

场景:输入在指定的错误(错误应涵盖数据类型不匹配的情况)行数内,trans不报错,但通过错误处理步骤捕捉,并记入文件,整个数据管线正常完成直至处理完最后一个输入行。 解决方案:使用步骤【数据检验】进行处理。这个步骤和常规的业务系统对接三方接口一个逻辑,将符合规则的数据放行,不符合的记录。 数据准备(

kettle从入门到精通 第六十七课 ETL之kettle 再谈kettle阻塞,阻塞多个分支的多个步骤

场景:ETL沟通交流群内有小伙伴反馈,如何多个分支处理完毕之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。 解决:使用步骤Blocking step进行阻塞处理即可。 1、 如下流程图中利用Blocking step步骤同时阻塞【模拟表输出1】和【模拟表输出2】两个步骤,只有当两个步

使用Kettle定时从数据库A刷新数据到数据库B

# 一、需求背景 由于项目场景原因,需要将A库(MySQL)中的表a、表b、表c中的数据``定时T+1`` ``增量``的同步到B库(MySQL)。这里说明一下,不是数据库的主从备份,就是普通的数据同步。经过技术调研,发现Kettle挺合适的,原因如下: 1. Kettle (数据抽取、清洗、转换、

工作疑难问题解决4例

记录一下工作上疑难问题解决: 一,方便的页面监控 前几天早上,负责的kettle抽取数据表的任务又报错了,早上看手机有4个未接报警电话,一看是人员表,原来昨天报表系统有个大的查询一直未查询完成,导致truncate这个人员表,无法活动meta的锁,后续执行抽取和计算的都报错。为解决以前这个很偶发的大