MRS+LakeFormation:打造一站式湖仓,释放数据价值

mrs,lakeformation,打造,一站式,释放,数据,价值 · 浏览次数 : 87

小编点评

**华为 LakeFormation:企业级湖仓构建服务** **1. 背景** * 数仓和数据湖的概念数据分析技术在 2010-2019 年间逐步发展,从单机向分布式、智能化发展。 * 传统湖仓技术在多年的实践中逐渐衍生出了挑战,包括跨集群、跨服务数据分析的复杂性和耗时性。 * 湖仓一体架构出现为了解决这些挑战,提供数据湖元数据统一管理的可视化界面和 API。 **2. 华为 LakeFormation 服务** *华为 LakeFormation 是企业级的一站式湖仓构建服务。 * 它提供了数据湖元数据统一管理的功能,支持 Hive 元数据模型以及 Ranger 权限模型。 * LakeFormation 支持无缝对接多种计算引擎 (Hive、Spark 等) 及大数据云服务 (MRS 等)。 **3.关键能力** * Rich 元数据和数据权限管理 * Catalog 和跨源管理 * 库/表/函数集中管理 * 跨服务/跨集群的数据共享 * Serverless 架构,简易易上手 **4.场景价值** * 降低数据应用成本 * 加速数智融合进程 * 释放业务数据价值 **5. 总结** 华为 LakeFormation 是一个完整的湖仓构建解决方案,可以帮助企业从创建到管理,以及从数据存储到业务应用之间进行全面的数据湖管理。

正文

摘要:华为LakeFormation是企业级的一站式湖仓构建服务。

本文分享自华为云社区《华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值】》,作者:breakDawn 。

1 背景

1.1 数仓和数据湖的概念

数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。

  • 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
  • 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。

1.2 传统湖仓技术的挑战

以上技术在多年的实践中,逐步衍生出了以下的一些挑战:

  • 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
  • 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
  • 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。

上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享,避免其中额外的ETL成本以及降低链路的延时。

1.3 湖仓一体架构的出现

为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。

2 华为lakeFormation服务关键能力

华为LakeFormation是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎(Hive、Spark等)及大数据云服务(MRS等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:

  • 丰富的元数据和数据权限管理

华为lakeformation支持Catalog和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方ETL进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。

  • 生态开放

华为LakeFormation兼容社区接口、支持平滑对接和迁移,提供了兼容Hive/Spark/Flink/Trino社区的元数据接口,支持计算引擎平滑对接,同时兼容Ranger的权限接口,支持一次授权,统一生效。

  • 大规模、高可靠

华为LakeFormation支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多AZ的容灾能力,可为业务持续性提供稳定保障,且采用Serverless架构,开箱即用,简单易上手。

3 华为云MRS支持lakeformation创造数据价值

3.1 Lakeformation给MRS带来的场景价值

以数智融合场景为例,当大数据用户在MRS中创建了表T1时, 数仓用户可通过lakeformation观察到表T1的元数据,并通过其他MRS集群中写入正确的数据内容。

当用户希望通过华为MRS读取T1数据时,可借助LakeFormation查看T1表,再进行T1数据的获取,整个过程中减少了多个MRS集群协同运作时的复杂ETL操作,大大提升了数据使用的效率。

另外,当企业用户的安全管理员希望对不同MRS集群中同一业务类型的元数据进行ranger权限限制时,可通过LakeFormation进行一次授权,统一生效,充分提高了管理效率,简化管理流程。

3.2 MRS服务对接lakeformation能力展示

华为MRS用户可基于最新上线的LakeFormation数据连接能力,实现LakeFormation实例的创建和授权。

在MRS控制台的数据连接页面,支持创建如下图所示的LakeFormation数据连接:

建立完成LakeFormation数据连接后,即可在MRS集群概览中,配置该数据连接,实现MRS和LakeFormation之间的数据关联。

后续再根据产品资料指导完成MRS集群组件相关配置后, 即可正常使用LakeFormation统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。

当用户在LakeFormation中针对MRS集群的catalog建立了department表后

其他用户可在对应MRS集群的hive客户端中观察这个department表的元数据。

反过来,用户通过MRS的hive客户端创建一个employe表后,可以在LakeFormation中看到该元数据信息。

另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到MRS的权限管理组件中。

4 总结

对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

 

点击关注,第一时间了解华为云新鲜技术~

与MRS+LakeFormation:打造一站式湖仓,释放数据价值相似的内容:

MRS+LakeFormation:打造一站式湖仓,释放数据价值

摘要:华为LakeFormation是企业级的一站式湖仓构建服务。 本文分享自华为云社区《华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值】》,作者:breakDawn 。 1 背景 1.1 数仓和数据湖的概念 数据分析技术在2010~2019年间,以湖仓两层架构技术作为

华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值

摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。 本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价

云小课|MRS基础操作之集群健康检查

MapReduce服务为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。集群中的FusionInsight Manager将提供企业级的集群的统一管理平台。

云小课|MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。 本文分享自华为云社区

云小课|MRS基础原理之CarbonData入门

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:CarbonData是一种新型的Apache Hadoop本地文件格式,使用先进的列式存储、索引、压缩和编码技术,以提

云小课|MRS基础原理之Oozie任务调度

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Oozie是一个基于工作流引擎的开源框架,它能够提供对Hadoop作业的任务调度与协调。Oozie是一个工作流引擎服务

云小课|MRS基础原理之MapReduce介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:MapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概

云小课|MRS基础操作之配置DataNode容量均衡

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:当HDFS集群出现DataNode节点间磁盘利用率不平衡时,会导致MapReduce应用程序无法很好地利用本地计算的优

云小课|MRS基础原理之Flink组件介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介