数仓专家面对面 | 为什么我选择GaussDB(DWS)

专家,面对面,为什么,选择,gaussdb,dws · 浏览次数 : 240

小编点评

## 数据仓库的兴起与未来发展 **数仓的诞生:** * 数据仓库的萌芽可以追溯到80年代,当时人们对数据管理和处理的需求逐渐增长,数据量增加,分析需求加深,才开始产生面向分析的负载。 * 云计算的兴起促进了数仓技术的突破,例如云原生Serverless化等技术,为数仓提供了极大的性能提升空间。 **数仓未来的发展:** * 数据仓库将不断融合云计算、流与批、湖和仓、数智融合等方向,形成智慧型数仓时代。 * 云原生Serverless化将成为数仓未来发展的核心方向,极大地提升用户的弹性和性能。 * HTAP混合负载将成为支持多种业务场景的必备技术,极大地提升数仓的性能和可靠性。 **国内数仓产业的未来展望:** * 优化数据仓库的技术发展将为国内数据产业发展贡献力量。 * 随着云计算技术的广泛应用,数仓产品将更加普及,为用户带来更便捷和高效的数据管理体验。 * 提升数据仓库的技术能力将为AI产业发展提供更基础的保障。 **个人对GaussDB(DWS)的看法:** * GaussDB(DWS)拥有丰富的技术经验和丰富的应用场景,为数仓技术的发展提供了坚实的基础。 * GaussDB(DWS)的性能和稳定性已在国内数据仓库行业占据领先地位,是用户选择的高端数据仓库解决方案。 * GaussDB(DWS)的融合能力为用户提供了更加灵活的选择,可以根据不同的业务场景选择最适合自己的解决方案。

正文

摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?

导语

数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。

你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗?

今天我们邀请到了华为云数据仓库首席架构师,中国计算机学会数据库专委委员——曾凯,来和我们面对面聊一聊从业者眼中的数据仓库。

曾凯,本科毕业于浙江大学,博士毕业于加州大学洛杉矶分校,曾在加州大学伯克利分校的AMPLab 做博士后研究。他发表了多篇数据库领域的CCF A类论文,曾获得SIGMOD 2012最佳论文奖、SIGMOD 2014最佳演示奖以及SIGMOD 2010最佳演示奖提名,并常年担任SIGMOD、VLDB、ICDE等数据库领域会议的PC Member等。

正文

主持人:您觉得数仓是如何应运而生的?

曾博:数据库的诞生,实际上是伴随着计算机的诞生,人类数据信息管理和处理方式的一种升级。但是数据库诞生之初,还是没有数仓的,数仓其实是在80年代以后,人们对于数据管理和处理的诉求进一步提升,数据量增加,数据分析的复杂度和维度变得更大了以后,才开始产生面向分析的负载,然后才有数据仓库的诞生。在我看来,数据仓库的诞生,它就代表人们不再满足于对数据做简单的存储和操作管理,而是尝试从数据中去挖掘价值,通过分析数据来支撑商业决策。当然数仓也在不断发展,从描述型的数仓,演进为探索型的数仓,再到运营型的数仓,发展到今天我认为已经进入到了智慧型的数仓时代。

主持人:可以请您谈一下对国内数仓产业的见解吗?比如国内需要怎么样的数仓产品,有哪些场景迫切需要数仓的发展与演进,这些场景对数仓提出了哪些能力要求?

曾博:我觉得数仓产品的发展和演进方向可以用一个词来总结,就是“融合”,这些包括传统数仓技术与云计算的融合,流与批的融合,湖和仓的融合,数据和AI的融合,TP与AP的融合等等:

一是传统数仓技术与云计算的融合,也就是云原生serverless化,目前数据仓库的架构正向云原生演进,其典型技术特征是存算分离。这种新架构可以给用户带来极致的弹性,同时降低成本和提高资源利用率。二是流与批的融合,我们也称实时分析,像实时风控、实时营销、实时授信等场景越来越需要对当前最新产生数据进行即时的分析。三是湖和仓的融合,也就是湖仓一体,将数据湖和数据仓库有机结合,充分融合数据仓库的高性能与数据湖的低成本,实现冷热数据分级、价值密度分级,同时承载结构化、半结构化及非结构化的海量数据的多样化处理。四是数智融合,也就是融合数据平台和AI平台,实现能力互补,将数据仓库数据管理能力与ML流程生命周期管理结合。五是TP与AP的融合,运用HTAP,构建一套系统,既支持TP又支持AP能力,同时降低成本、减少系统运维和ETL开销。

主持人:对于您个人而言,为什么选择了GaussDB(DWS),GaussDB(DWS)产品什么方面吸引了您?

曾博:首先从个人背景来讲,我其实一直都是深耕在数据库和分布式系统领域,所以我个人对于数据处理技术有着浓厚的兴趣。

其次,GaussDB(DWS)的发展,从华为的2012实验室孵化之初,到如今已经有10多个年头了。这中间GaussDB(DWS)的团队不断在技术上追求卓越,精益求精,到目前为止服务超过1700家客户,已经在工业界成长为业界第一梯队的数据仓库产品。不仅如此,GaussDB(DWS)在学术圈也有一定的影响力,经常在国际数据库研究领域发表论文以及参加研究交流活动。所以我觉得GaussDB(DWS)不管是作为一个工业产品,还是作为一个数据库技术研发平台,都是非常好的载体,这也是GaussDB(DWS)吸引我,让我选择在这里工作的原因。

主持人:您觉得GaussDB(DWS)未来的能力增长方向在哪些方面,GaussDB(DWS)在未来能带来哪些更多的可能性?

曾博:就像我之前提到的,DWS未来会在以存算分离为架构特点的云原生Serverless化、实时分析、HTAP混合负载,还有跟周边生态系统的融合,包括湖仓一体、数智融合、智能化等等方向持续投入研发理论,不断推动这些方面的技术能力发展。另外我想着重强调一点,就是我们今年3月底会发布新一代全场景云数据仓库——GaussDB(DWS)3.0,在保持GaussDB(DWS)传统的优秀的性能和可靠性,以及优异的实时分析,HTAP混合负载的能力之外,就在这些方向上引入了更多业界领先的能力:

比如说在云原生Serverless化方面,GaussDB(DWS)3.0引入了极致的弹性能力,可以为用户提供分钟级的逻辑集群内部弹性,也可以支持用户分钟级地去按需创建和销毁逻辑集群。并且用户可以按照业务诉求,去灵活使用多个逻辑集群支持不同的业务负载,保证各种业务负载之间严格的资源隔离,同时还可以根据业务负载的动态需求变化来弹性伸缩;并随着业务负载的增长,线性地提升它的承载能力。

同时GaussDB(DWS)3.0也大大增强了湖仓一体和数智融合方面的能力,支持与华为云大数据的产品站无缝融合,这样用户就可以在湖和仓的数据上实现无缝的混合复杂查询,使得用户对湖上数据的分析仍然能够体验数据仓库的极致查询性能和非常强大的负载管理能力。同时在数智融合方面,我们提供了非常方便的手段,来打通用户的数据生产线和AI生产线,使得用户可以利用数仓强大的计算能力,为AI生产线提供高质量的数据和数据加工的能力,同时也可以把AI训练和推理的能力无缝地集成到数仓数据分析的过程中来,提供更多的可能性。

云数据仓库 GaussDB(DWS)一块钱试用名额,快来加入我们吧。

试用链接:https://account.huaweicloud.com/pkgbuy/#/home?prId=P2301030739348161PUN0WH1KGC25E

 

点击关注,第一时间了解华为云新鲜技术~

与数仓专家面对面 | 为什么我选择GaussDB(DWS)相似的内容:

数仓专家面对面 | 为什么我选择GaussDB(DWS)

摘要:你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗? 导语 数据仓库的发展一直是备受关注的议题,随着近年来技术的不断演进,数仓也在更新迭代。 你知道数仓是如何应运而生的吗?你了解数仓未来的发展趋势吗?想知道国内数仓专家的看法吗? 今天我们邀请到了华为云数据仓库

数仓性能调优:如何进行函数下推

摘要:本文主要描述下函数在满足特征的前提下可以把函数属性定义为下推属性。 本文分享自华为云社区《GaussDB(DWS)性能调优:函数下推》,作者:譡里个檔 。 DWS作为MPP架构的数仓产品,其性能优势主要在分布式计算上。默认情况下,DWS为了保证结果的正确性,自定义函数默认属性是不下推的,这会导

数仓在线运维:如何进行在线增删CN?

摘要:集群运行过程中,根据集群的综合负载和业务接入情况进行分析:增加CN可以适当降低CPU消耗,增大接入连接数,分散CN节点业务压力,根据实际情况来识别是否要增加CN,如果是提升集群容量和扩展比能力,建议进行扩容操作。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】在线运维-在线增

【数仓运维实践】关于GaussDB(DWS)单SQL磁盘空间管控

摘要:本文主要讲解数仓运维中遇到单SQL磁盘空间管控问题的解析和方案。 本文分享自华为云社区《GaussDB(DWS)运维 -- 单SQL磁盘空间管控》,作者: 譡里个檔。 【问题描述】 执行部分SQL语句时出现如下报错信息(具体数值可能因为配置有差异),本文针对根因和场景触发场景,确定触发此类问题

数仓如何进行表级控制analyze?

摘要: 介绍如何设置采样大小和表级控制analyze。 本文分享自华为云社区《GaussDB(DWS) 如何表级控制analyze》,作者:leapdb。 一、控制采样大小 【设置全局采样大小】 通过参数default_statistics_target设置全局默认采样大小。 a.default_s

数仓安全测试之SSRF漏洞

摘要:SSRF (Server-Side Request Forgery,服务器端请求伪造)是指由攻击者构造请求,然后利用服务器的漏洞以服务端的身份向内网发送请求对内网发起攻击。 本文分享自华为云社区《GaussDB(DWS)安全测试之SSRF漏洞》,作者: ACBD。 1. 什么是SSRF漏洞 S

数仓实践丨主动预防-DWS关键工具安装确认

摘要:gdb确认是否安装,所带来的该工具用户数据库实例触发core问题后集群状态反复异常,对此问题及时分析根因并及时进行规避。 本文分享自华为云社区《主动预防-DWS关键工具安装确认》,作者:上官寒雨。 【关键工具确认】 1、gdb确认是否安装(该工具用户数据库实例触发core问题后集群状态反复异常

数仓性能调优:大宽表关联MERGE性能优化

摘要:本文主要为大家讲解在数仓性能调优过程中,关于大宽表关联MERGE性能优化过程。 本文分享自华为云社区《GaussDB(DWS)性能调优:大宽表关联MERGE性能优化》,作者:譡里个檔。 【业务背景】 如下MERGE语句执行耗时长达2034s MERGE INTO sdifin.hah_ae_l

数仓现网案例丨超大结果集接收异常

用户使用数据库客户端工具如navicat、dbeaver等执行超大结果集的查询语句导致异常中断,中断信息Last read message sequence %d is not equal to the max written message sequence %d。

数仓性能优化:倾斜优化-表达式计算倾斜的hint优化

本文主要讲解表达式倾斜的hint优化。