MRS大企业ERP流程实时数据湖加工最佳实践

mrs,企业,erp,流程,实时,数据,加工,最佳,实践 · 浏览次数 : 46

小编点评

**MRS实时数据湖方案演进案例实践解析** **业务描述** AE表:会计分录表,记录财务相关信息。 **四通道表** * 销售记录信息,用于成本核算和科目报表分析。 **痛点科目分析报表业务** * 实时数据湖方案的性能问题:响应时间过慢。 **实时数据湖方案优势** * **实时数据湖处理:**支持每日、每小时、每分钟的数据查询,降低传统供数压力。 * **Hudi支持:**提供数据更新实时性。 * **多种查询条件:**支持科目、批名、凭证名、合同号等31个查询条件。 * **用户友好:**支持基于页面直接分析。 **挑战** * **内存限制:**流加工模型可能面临内存不足的问题。 * **数据时延:**流加工模型的性能受数据更新频率和内存限制的影响。 **模型选择** **模型一:Hudi表流读** * 减少整体内存开销,提高作业稳定性。 * 以其中一条流为基准,去比较另一条流。 * 出现关联缺失的情况,以驱动表(AE表)的视角进行处理。 **模型二:补偿目的** * 补偿源端数据缺失数据的主要字段,关联源表完整内容找出缺失数据。 * 模型二局限性:实际情况双流之间时延可能较大,对齐较难。 **模型三:双写目的** * 业务系统持续向Hudi表,HBase表双写数据。 * Hudi表流读提供主要热关联数据,HBase存储所有历史数据。 * 提高双流关联的命中率,减少流加工整体数据时延。 **结论** 通过选择Hudi表流读、补偿目的和双写模式,可以克服实时数据湖方案面临的内存限制和数据时延问题,实现高效的数据湖处理。

正文

本文分享自华为云社区《MRS大企业ERP流程实时数据湖加工最佳实践》,作者:晋红轻 。

本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进

案例实践需求解析:

业务描述

  • AE表:会计分录表,主要记录财务相关信息,可用于成本核算等业务计算。为业务最主要的表,称驱动表。
  • 四通道表:实际为四个门店业务系统,主要记录销售记录信息。为成本核算、科目报表分析等业务提供信息佐证。可称为维表。

业务痛点

  • 科目分析报表业务供数慢的痛点,数据时延高。
  • 实际业务数据有内容更新,保证数据严格一致。
  • 科目分析报表查询仅支持公司、科目、时段等少量查询条件。

实时数据湖方案优势

  • 实时数据湖方案做增量加工,将传统供数压力卸载到每天、每小时、每分钟,100万数据查询只需要2min。
  • 使用Hudi作为数据湖天然支持数据更新。
  • 提供所有数据归档,可随时回溯。
  • 支持科目、批名、凭证名、合同号等31个查询条件,大幅度减少用户导出数据后筛选过滤时间。支持用户基于页面直接分析。

实时数据湖方案实施挑战

  • 流计算基于内存,峰值数据量过大会影响作业稳定性。
  • 多流时延大,数据等待耗费大量内存资源,需考虑业务需求与使用资源的平衡。

流加工模型一:

cke_167.png

模型一特点

•Hudi表流读能够减少整体内存开销,提高作业稳定性。

•以其中一条流为基准(左表),去比较另一条流(右表)

•会出现关联缺失的情况,以驱动表(AE表)的视角(新增&更新)

•1)四通道流早到,并且ttl到期后数据丢失

•2)四通道流晚到,AE流ttl到期后数据丢失

模型一局限:

•目标宽表数据会出现不准的情况

•源端新增因为关联不出有效结果造成目标宽表缺数 -> missing

•源端更改因为关联不出有效结果造成目标宽表延时 -> delay

流加工模型二:

cke_168.png

补偿目的:

补偿目的:基于业务逻辑,对比源端流表和目的端宽表数据内容,发现目标宽表缺失数据主要字段,关联源表完整内容找出缺失数据,并写回源端表补偿层。

missing&delay补偿模拟:

cke_169.png

模型二特点:比较方案一增加补偿机制,能够对比源表(AE表,四通道表)以及目标宽表,找出缺失数据missing, delay。

模型二局限:实际情况双流之间时延可能较大、对齐较难,虽然能够使用补偿机制找回缺失数据,但是这样流加工任务主要角色会被弱化,同时会对补偿任务造成更大压力,数据时延会变大 。

流加工模型三(最终):

cke_170.png

双写目的:业务系统持续向Hudi表,HBase表双写数据。Hudi表流读,提供主要热关联数据,HBase存储所有历史数据,技术上就是维度表,为热关联失败之后进行快速点查补数(lookup join)得到有效关联。提高双流关联的命中率。减少流加工整体数据时延。

维表选型:

模型总结:

 

点击关注,第一时间了解华为云新鲜技术~

与MRS大企业ERP流程实时数据湖加工最佳实践相似的内容:

MRS大企业ERP流程实时数据湖加工最佳实践

本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进。

工业数据分析为什么要用FusionInsight MRS IoTDB?

摘要:MRS IoTDB,它是华为FusionInsight MRS大数据套件中的时序数据库产品,在深度参与Apache IoTDB社区开源版的基础上推出的高性能企业级时序数据库产品。 本文分享自华为云社区《工业数据分析为什么要用FusionInsight MRS IoTDB?》,作者:高深广 。

云小课|MRS基础原理之Hue组件介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Hue是一组WEB应用,用于和MRS大数据组件进行交互,能够帮助用户浏览HDFS,进行Hive查询,启动MapRedu

云小课|MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。 本文分享自华为云社区

云小课|MRS基础原理之CarbonData入门

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提

云小课|MRS基础原理之Oozie任务调度

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。Oozie是一个工作流引擎服务

云小课|MRS基础原理之MapReduce介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概

云小课|MRS基础操作之配置DataNode容量均衡

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:当HDFS集群出现DataNode节点间磁盘利用率不平衡时,会导致MapReduce应用程序无法很好地利用本地计算的优

云小课|MRS基础原理之Flink组件介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介