从数仓发展史浅析数仓未来技术趋势

发展史,浅析,未来,技术,趋势 · 浏览次数 : 93

小编点评

##华为云GaussDB(DWS)数据仓库技术发展史浅析 **直播主题:从数仓发展史浅析数仓未来技术趋势** **主讲人:华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯** **直播时间:2023年3月29日下午16:30-18:00** **直播链接:**bbs.huaweicloud.com/signup/6f7874a9742e42389ddd6cc8b7af32d6 点击关注,第一时间了解华为云新鲜技术~ **直播内容摘要:** * 华为云GaussDB(DWS)数据仓库由何而来? * 数据仓库的概念内涵如何? * 未来,数据仓库将如何发展? *华为云GaussDB(DWS)在数仓发展中的关键技术有哪些? * 未来,华为云GaussDB(DWS)将如何提供极致分析体验? **直播重点:** *华为云GaussDB(DWS)的历史发展历程 * 数据仓库逻辑分层架构 * 实时数仓和IoT数仓的技术特点 * 云原生架构的优势 * 数据仓库性能优化技术 * 未来技术发展趋势 **直播互动环节:** * 直播中与开发者和伙伴朋友们互动,分享各自对数据仓库的理解和经验。 **其他信息:** * 本期直播完整视频点击链接查看:bbs.huaweicloud.com/signup/6f7874a9742e42389ddd6cc8b7af32d6 点击关注,第一时间了解华为云新鲜技术~。

正文

摘要:华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。

本文分享自华为云社区《直播回顾 | 从数仓发展史浅析数仓未来技术趋势》,作者:胡辣汤。

在本期《从数仓发展史浅析数仓未来技术趋势》的主题直播中,我们邀请到华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。

数据仓库由何而来?

上世纪70年代,E.F.Codd提出关系型数据库模型,把用户从复杂数据处理的底层逻辑中抽离出来。1970年代,MIT提出单独构建分析系统的基础理论。1980年代初,W.H.Inmon开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究 。1990年代初,数据仓库之父--- W.H.Inmon出版了数据仓库的经典作品《构建数据仓库》。从90年代开始,数据仓库进入蓬勃发展时期,涌现了非常多数据仓库产品。数据仓库的概念内涵非常丰富,但从抽象来说,借用Inmon的定义,数据仓库是一个面向主题的、集成的、相对稳定、反映历史变化(随时间变化),用来支撑管理人员决策的数据集合。其中4个主要特点为:

  1. 面向主题:主要是给数据分类,方便理解和管理。
  2. 集成:在使用数据之前,需要对其进行加工与集成,并且其有统一的数据结构和编码。
  3. 非易失的:数据仓库中包含了大量的历史数据,其是极少或基本不更新的。
  4. 随时间变化:数据随时间不断积累,保存较长的时限。数据特征标明了历史时期,反映时间趋势的变化。

传统数据仓库技术架构

数据仓库的发展也经历了底层技术架构的演进。一般来说传统数据仓库的技术架构可以概括为三类:Shared Everything, Shared Disk和Shared Nothing。

  • Shared Everything针对单机数据库,完全透明共享单机内的CPU、内存、IO资源;
  • Shared Storage各个处理节点使用其自己独有的CPU、内存,但是存储是共享的;
  • Shared Nothing是一种分布式计算架构,CPU、内存、磁盘等资源都是私有的,整个系统中不存在共享资源,没有单点的竞争。

Shared-Nothing架构因为其优秀的可扩展性,目前已成为高性能数据仓库的主流架构。在该体系架构下,数据是按照节点水平划分,每个节点只负责自己本地的数据。这样就会使得每个节点有相同的功能并在自己的硬件上运行,其资源不去进行争用。

数据仓库逻辑分层架构

对于上层应用来说,业界有很多对数据仓库的逻辑分层架构,其中比较有代表性的逻辑分层结构有四个层次:分别为数据运营层(ODS,Operational Data Store)、数据明细层(DWD,Data Warehouse Detail)、数据服务层(DWS,Data Warehouse Service)、数据应用层(ADS,Application Data Service)。

  • 数据运营层(ODS),该层将原始数据几乎无处理地存放在数据仓库系统汇总,结构上与源系统保持一致,其职责是将基础数据同步、存储,是后续加工数据的来源;
  • 数据明细层(DWD),该层主要解决的是数据质量和数据完整性问题,在ODS的基础之上对数据进行加工处理,提供更干净的数据,并基于维度建模,明细宽表,复用关联计算,减少数据扫描;
  • 数据服务层(DWS),该层主要是将上层来的数据整合汇总成分析某一个主题域的数据服务层,用于提供后续的业务查询;
  • 数据应用层(ADS),是为数据产品和数据分析提供使用的数据,为进一步的数据分析提供个性化数据、宽表集市、趋势指标等。

未来,数据仓库将如何发展?

从早期PC时代到互联网时代、移动互联网时代,再到智能数据时代。数据特征呈海量化、多样化发展,业务特征呈实时化、生态化发展。自数字化以来,数据量年增长30%,每三年翻一番,互联网交易数据是4.5亿笔/天。为了充分挖掘数据价值,发掘数据潜力,便于支撑业务决策,使得业务收集保存越来越多的数据,带来了数据海量化。同时也促进了业务收集各种数据,比如日志、遥感、文件、图片的数据,从不同数据里挖掘信息,带来了数据多样化。业务决策要求发现数据中实时的趋势变化,支持实时的业务决策,例如实时风控、工业OT等,这些都要求数据分析的实时化;此外,数据的分析挖掘需要整合多样性的数据,从而走向多样信息的融合,走向生态化。

数据仓库发展趋势:

华为云GaussDB(DWS)发展历程

华为云GaussDB(DWS)历经12年技术演进,2011年开始技术预研,2014年首次上市,通过不停地迭代和演进,从2017年开始大规模商用,当前全球已累积1700+大客户。针对数仓发展趋势,GaussDB(DWS)也在不断地演进,2022年推出实时数仓、IoT数仓,应对实时数据的接入,满足实时计算场景需求。

2023年3月底GaussDB(DWS)即将发布云原生数仓,提供存算管三层分离、极致弹性能力,提供湖仓一体、数智融合和优异性能体验。

  • Serverless的云原生架构:存算管的三层分离,计算存储资源独立、灵活、快速伸缩,高性价比满足用户变化多样的负载需求和严格的负载隔离要求。
  • 极致弹性:多样的弹性方式逻辑集群扩缩容\启停,一份数据承载多样负载,数据实时共享。
  • 湖仓一体:支持数据湖与数仓互联互通,不需要进行数据搬迁,GaussDB(DWS)可以直接访问数据湖的数据表,进行数据分析,可以体验到数仓的极致分析性能和精准管控度。
  • 数智融合:数据生产线与AI生产线的无缝对接,数据生产线为AI生产线提供强劲的数据处理能力和灵活的供数方式;AI训练推理能力嵌入数据分析流程。
  • 优异性能:一体化性能优化,匹配传统数仓的性能体验。

本期直播完整视频点击链接查看,更多关于GaussDB(DWS)云原生数仓技术能力解析,请关注3月29日(本周三)下午16:30-18:00,华为云GaussDB(DWS)云原生首席SE 王传廷老师的直播课堂。直播报名链接:https://bbs.huaweicloud.com/signup/6f7874a9742e42389ddd6cc8b7af32d6

 

点击关注,第一时间了解华为云新鲜技术~

与从数仓发展史浅析数仓未来技术趋势相似的内容:

从数仓发展史浅析数仓未来技术趋势

摘要:华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。 本文分享自华为云社区《直播回顾 | 从数仓发展史浅析数仓未来技术趋势》,作者:胡辣汤。

从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生

摘要:随着云计算的兴起和渗透,云数仓成为了数仓技术演进的新阶段,并且逐渐成为了众多企业的共同选择。 本文分享自华为云社区《从GaussDB(DWS)的技术演进,看数据仓库的积淀与新生》,作者: 华为云头条。 数据驱动着现代商业的发展 今天,无论在制造、零售、物流 还是在互联网、金融等行业 数据都变得

解密数仓高可用failover流程

摘要: Gaussdb的HA采用主备从的架构实现数据可靠性。当主DN发生故障时,备DN走failover流程,升级成为新主DN,保证集群不因单DN故障而中断业务。 本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】dws高可用之failover流程大解密》,作者:fxy0224。 众所

用户行为分析模型实践(三)——H5通用分析模型

本文从提升用户行为分析效率角度出发,详细介绍了H5埋点方案规划,埋点数据采集流程,提供可借鉴的用户行为数据采集方案;且完整呈现了针对页面分析,留存分析的数仓模型规划方案。

树状数组

都说树状数组思路很难,那我们今天就给他讲个透彻! 前置知识:`lowbit` 运算 `lowbit` 的作用就是返回一个数从右往左数的第一个1与他前面所有的0所组成的十进制数 举个例子: $114$这个数转换为二进制为$1110010$,而它从右往左数的第一个$1$在第二位,将这位右边的所有$0$放

2024-06-05:用go语言,给定三个正整数 n、x 和 y, 描述一个城市中由 n 个房屋和 n 条街道连接的情况。 城市中存在一条额外的街道连接房屋 x 和房屋 y。 需要计算对于每个街道数(

2024-06-05:用go语言,给定三个正整数 n、x 和 y, 描述一个城市中由 n 个房屋和 n 条街道连接的情况。 城市中存在一条额外的街道连接房屋 x 和房屋 y。 需要计算对于每个街道数(从 1 到 n), 有多少房屋对满足从一个房屋到另一个房屋经过的街道数正好为该街道数。 在结果数组中

kettle从入门到精通 第七十课 ETL之kettle kettle数据校验,脏数据清洗轻松拿捏

场景:输入在指定的错误(错误应涵盖数据类型不匹配的情况)行数内,trans不报错,但通过错误处理步骤捕捉,并记入文件,整个数据管线正常完成直至处理完最后一个输入行。 解决方案:使用步骤【数据检验】进行处理。这个步骤和常规的业务系统对接三方接口一个逻辑,将符合规则的数据放行,不符合的记录。 数据准备(

认识一下 Mobx

我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。 本文作者:霜序(LuckyFBB) 前言 在之前的文章中,我们讲述了 React 的数据流管理,从 props → context → Redux,以及 Redux 相

袋鼠云出品!数栈UI 5.0全新体验升级,设计背后的故事

我们是袋鼠云数栈 UED 团队,致力于打造优秀的一站式数据中台产品。我们始终保持工匠精神,探索前端道路,为社区积累并传播经验价值。 前言 数栈作为云原⽣⼀站式⼤数据开发平台,从2016年发布第⼀个版本开始,数栈就始终坚持着以技术为 核⼼、安全为底线、提效为⽬标、中台为战略的思想,坚定不移地⾛国产化信

谈JVM参数GC线程数ParallelGCThreads合理性设置

作者:京东零售 刘乐 导读:本篇文章聚焦JVM参数GC线程数的合理配置,从ParallelGCThreads参数含义、参数设置,到参数实验以及修改意见进行解析。 1. ParallelGCThreads参数含义 在讲这个参数之前,先谈谈JVM垃圾回收(GC)算法的两个优化标的:吞吐量和停顿时长。JV