GaussDB(DWS)云原生数仓技术解析

gaussdb,dws,原生,技术,解析 · 浏览次数 : 51

小编点评

## GaussDB(DWS)云原生数仓架构、产品能力概述 **本文介绍了GaussDB(DWS)云原生数仓的相关架构和产品能力,帮助开发者快速了解该技术的信息与能力。** **1. GaussDB(DWS)云原生数仓架构** * 从Shared Storage到Shared Nothing分布式计算架构演进 * 存储类似shared storage,计算类似shared nothing,每个节点只处理自己分片的数据 * 优点:计算存储分层扩展,计算节点扩容无需数据重分布,速度快,灵活 * 存储节点按需扩容,无限容量 **2. GaussDB(DWS)产品能力** * 一、极致弹性GaussDB(DWS)云原生数仓极致弹性:支持多逻辑集群间共享数据,无需拷贝 * 二、湖仓一体:降低维护成本,支持外键查询 * 三、数智融合打通数据仓库与AI生产线:提供SQL语法,直接调用部署的推理服务端点 * 四、优异性能存算分离:缓存、近数据计算、IO调度 三种技术提升数仓性能 **3. 参考资料** * GaussDB(DWS)官方论坛:bbs.huaweicloud.com/forum/forum-598-1.html * GaussDB(DWS)直播回放:华为云专案管理平台公众号

正文

摘要:本文主要介绍GaussDB(DWS)云原生数仓架构、产品能力,帮助开发者快速了解GaussDB(DWS)云原生数仓相关信息与能力。

本文分享自华为云社区《直播回顾 | GaussDB(DWS)云原生数仓技术解析》,作者:胡辣汤。

在本期《GaussDB(DWS)云原生数仓技术解析》的主题直播中,我们邀请到华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)云原生首席SE 王传廷,针对GaussDB(DWS)云原生数仓架构、产品能力,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解GaussDB(DWS)云原生数仓相关信息与能力。

数仓需求变化及技术架构演进

云计算时代,数据仓库的需求和技术架构也在不断地发生变化。数仓需求主要分为两类场景:

  • 公有云场景,主要是指用户直接购买的公有云厂商的云服务。公有云用户的需求更多关注在产品成本、扩容灵活弹性、数据共享。
  • 线下部署场景,这类场景可能是用户购买的硬件部署了一个软件,也可能是用户在机房搭建了内部私有云环境。线下部署场景主要需求是:系统稳定、负载之间有较好的隔离能力、数据共享、弹性。

数仓技术架构演进由最初Shared Storage共享存储到Shared Nothing分布式计算架构再到现在的存算分离架构。

  • 存算分离架构特点:存储类似shared storage,计算类似shared nothing,每个节点只处理自己分片的数据。
  • 存算分离架构优点:计算存储分层扩展,计算节点扩容无需数据重分布,速度快,灵活;存储节点按需扩容,无限容量;计算节点之间无需协调机制,只需保证计算节点只处理自己分片的数据。

GaussDB(DWS)云原生数仓架构解析

华为云GaussDB(DWS)历经12年技术演进,2011年开始技术预研,2014年首次上市,通过不停地迭代和演进,从2017年开始大规模商用,当前全球已累积1700+大客户。针对数仓发展趋势,GaussDB(DWS)也在不断地演进,2022年推出实时数仓、IoT数仓,应对实时数据的接入,满足实时计算场景需求。2023年即将发布的云原生数仓,支持存算管三层分离、湖仓一体、数智融合,具备优异性能和极致弹性能力。

GaussDB(DWS)云原生数仓产品能力

一、极致弹性

GaussDB(DWS)云原生数仓极致弹性,具备管理层、计算层、存储层三层分离独立灵活伸缩,一数多用、按需配置优势。

存算管三层分离:存储层,支持私有格式和开放格式,开放格式主要支持ORC/Parquet/Hudi等大数据生态的主流格式。私有格式是GaussDB(DWS)的存储格式,数据存储在OBS上,在私有格式上具备更好的性能。计算层,我们抽象了Virtual Warehouse概念(简称VW),也叫逻辑集群。VW是一组计算单元,可以灵活地添加或者释放,数据不属于任何一个VW,仅仅只是绑定关系。管理层是指将集群管理查询优化与GaussDB(DWS)数据节点和GTM层体现出来。

一数多用:数据存储在OBS上,任意逻辑集群均可承载读写负载,多逻辑集群间共享数据,无需拷贝,提供跨逻辑集群建的实时和近实时两种数据共享方式。

按需配置:通过逻辑集群隔离不同业务,性能稳定,业务承载量或并发量线性扩展,可以进行读写分离或多读多写。

二、湖仓一体

之前使用大数据写数据,需要创建外表,指定外表字段,并与大数据字段对应,需要访问多少张表,就创建多少张表,当外表数量只有一两张时维护也比较容易,外表越来越多时,维护成本也随之增加,如果数据湖中字段发生了变化,外表也需要更改。GaussDB(DWS)云原生数仓在湖仓一体方面做了能力增强,降低维护成本。在这里我们引入新的概念External Schema。我们通过创建一个 External Schema的形式,自动对接Hive Metastore元数据管理,直接访问数据湖的数据表定义,不再需要创建外表,提升体验,降低维护代价。

同时我们支持外表和内表进行融合查询,混合查询数据湖和数仓内任意数据,查询一步到位输出到数仓内/数据湖,无需额外数据中转拷贝,数据湖享受数仓的极致查询性能。

三、数智融合

打通数据仓库与AI生产线,通过OBS共享开放格式数据,为AI生产线提供强劲的数据处理能力和灵活的供数方式。提供SQL语法,在数据分析过程中提供驱动AI训练、应用AI推理的能力。直接调用部署的推理服务端点,灵活性好;将模型二进制部署为UDF,性能好。

四、优异性能

存算分离后,我们通过三个方面保证数仓性能,分别是:缓存、近数据计算(计算下推)、IO调度。

  • 缓存:将热数据优先缓存到本地,本地磁盘缓存空间够用的情况下,可以体验到和本地表一样的性能。GaussDB(DWS)在每个计算节点自带磁盘缓存,可以将OBS的数据缓存到本地,提升性能。
  • 近数据计算:将冷数据优先计算下推到存储层,降低读取数据量。
  • IO调度:充分利用云存储带宽优势,弥补其相较传统MPP的高延迟劣势;单查询充分利用资源,为并发查询提供稳定、可预测的性能保证;多级资源池灵活配置。

欢迎感兴趣的开发者观看直播回放,了解详细信息。更多关于GaussDB(DWS)产品技术解析、云原生数仓产品新特性的介绍,请关注GaussDB(DWS)论坛,直播安排将第一时间发布在GaussDB(DWS)论坛热门活动版块。

论坛链接:https://bbs.huaweicloud.com/forum/forum-598-1.html

 

点击关注,第一时间了解华为云新鲜技术~

与GaussDB(DWS)云原生数仓技术解析相似的内容:

GaussDB(DWS)云原生数仓技术解析

摘要:本文主要介绍GaussDB(DWS)云原生数仓架构、产品能力,帮助开发者快速了解GaussDB(DWS)云原生数仓相关信息与能力。 本文分享自华为云社区《直播回顾 | GaussDB(DWS)云原生数仓技术解析》,作者:胡辣汤。 在本期《GaussDB(DWS)云原生数仓技术解析》的主题直播中

数仓资源管控理论已掌握,是时候实战了

华为云GaussDB(DWS)技术布道师吕鹏博,针对GaussDB(DWS) 资源管控的原理和系统运维实践带来了精彩分享。

bucket表:数仓存算分离中CU与DN解绑的关键

摘要:Bucket存储是数据共享中重要的一环,当前阶段,bucket存储可以将列存中的CU数据和DN节点解绑。 本文分享自华为云社区《存算分离之bucket表——【玩转PB级数仓GaussDB(DWS)】》,作者:yd_278301229 。 在云原生环境,用户可以自由配置cup型号、内存、磁盘、带

GaussDB(DWS)查询过滤器原理与应用

摘要:GaussDB(DWS)查询过滤器(黑名单)提供查询过滤功能,支持自动隔离反复被终止的查询,防止烂SQL再次执行。 本文分享自华为云社区《GaussDB(DWS)查询过滤器原理与应用》,作者:门前一棵葡萄树 。 一、概述 GaussDB(DWS)查询过滤器(黑名单)提供查询过滤功能,支持自动隔

实践丨GaussDB(DWS)资源管理排队原理与问题定位

摘要:GaussDB(DWS)提供了资源管理功能,用户可以根据自身业务情况对资源进行划分,将资源按需划分成不同的资源池,不同资源池之间资源互相隔离。 本文分享自华为云社区《GaussDB(DWS)资源管理排队原理与问题定位》,作者: 门前一棵葡萄树 。 一、内存管控原理 GaussDB(DWS)提供

详解GaussDB(DWS)用户监控原理及应用

摘要:本文将聚焦于用户监控的原理及应用进行介绍。 本文分享自华为云社区《GaussDB(DWS)监控工具指南(二)用户级监控》,作者:幕后小黑爪 。 前言 资源监控是整个运维乃至整个产品生命周期重要的一环,事前及时语句发现故障,事后提供详实的数据用于追查定位问题。GaussDB(DWS)整个资源监控

看完这篇,DWS故障修复不再愁

摘要:本文详细梳理分析了DWS服务面临软硬件故障场景和对应的修复原理,希望借此能够让你对DWS的集群故障修复有个全面深入的了解。 本文分享自华为云社区《GaussDB(DWS)故障修复系统性介绍》,作者: 闻鲜生。 DWS是一个分布式架构的MPP集群,物理部署上涉及数百数千台主机和对应的磁盘,以及这

中国云数据仓库,双第一!

近日全球领先的IT市场研究和咨询公司IDC正式发布《中国关系型数据库软件市场跟踪报告-数据仓库市场Add-on》报告华为云GaussDB(DWS)凭借领先的技术和优异的市场表现荣获“双第一”。

从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生

摘要:随着云计算的兴起和渗透,云数仓成为了数仓技术演进的新阶段,并且逐渐成为了众多企业的共同选择。 本文分享自华为云社区《从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生》,作者: 华为云头条。 数据驱动着现代商业的发展 今天,无论在制造、零售、物流 还是在互联网、金融等行业 数据都变得

GaussDB(DWS)性能调优,解决DM区大内存占用问题

本文分享自华为云社区《GaussDB(DWS)性能调优:DM区优化案例——维度表关联条件存在会计期》,作者: O泡果奶~。 当前DM(P1、P3、CBGDM)存在维度表与主表关联时使用会计期作为关联条件,会导致出现大内存占用或未识别数据倾斜的问题 【场景一】f.period_id = 维度表.per