摘要:华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。
本文分享自华为云社区《直播回顾 | 从数仓发展史浅析数仓未来技术趋势》,作者:胡辣汤。
在本期《从数仓发展史浅析数仓未来技术趋势》的主题直播中,我们邀请到华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。
上世纪70年代,E.F.Codd提出关系型数据库模型,把用户从复杂数据处理的底层逻辑中抽离出来。1970年代,MIT提出单独构建分析系统的基础理论。1980年代初,W.H.Inmon开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究 。1990年代初,数据仓库之父--- W.H.Inmon出版了数据仓库的经典作品《构建数据仓库》。从90年代开始,数据仓库进入蓬勃发展时期,涌现了非常多数据仓库产品。数据仓库的概念内涵非常丰富,但从抽象来说,借用Inmon的定义,数据仓库是一个面向主题的、集成的、相对稳定、反映历史变化(随时间变化),用来支撑管理人员决策的数据集合。其中4个主要特点为:
数据仓库的发展也经历了底层技术架构的演进。一般来说传统数据仓库的技术架构可以概括为三类:Shared Everything, Shared Disk和Shared Nothing。
Shared-Nothing架构因为其优秀的可扩展性,目前已成为高性能数据仓库的主流架构。在该体系架构下,数据是按照节点水平划分,每个节点只负责自己本地的数据。这样就会使得每个节点有相同的功能并在自己的硬件上运行,其资源不去进行争用。
对于上层应用来说,业界有很多对数据仓库的逻辑分层架构,其中比较有代表性的逻辑分层结构有四个层次:分别为数据运营层(ODS,Operational Data Store)、数据明细层(DWD,Data Warehouse Detail)、数据服务层(DWS,Data Warehouse Service)、数据应用层(ADS,Application Data Service)。
从早期PC时代到互联网时代、移动互联网时代,再到智能数据时代。数据特征呈海量化、多样化发展,业务特征呈实时化、生态化发展。自数字化以来,数据量年增长30%,每三年翻一番,互联网交易数据是4.5亿笔/天。为了充分挖掘数据价值,发掘数据潜力,便于支撑业务决策,使得业务收集保存越来越多的数据,带来了数据海量化。同时也促进了业务收集各种数据,比如日志、遥感、文件、图片的数据,从不同数据里挖掘信息,带来了数据多样化。业务决策要求发现数据中实时的趋势变化,支持实时的业务决策,例如实时风控、工业OT等,这些都要求数据分析的实时化;此外,数据的分析挖掘需要整合多样性的数据,从而走向多样信息的融合,走向生态化。
华为云GaussDB(DWS)历经12年技术演进,2011年开始技术预研,2014年首次上市,通过不停地迭代和演进,从2017年开始大规模商用,当前全球已累积1700+大客户。针对数仓发展趋势,GaussDB(DWS)也在不断地演进,2022年推出实时数仓、IoT数仓,应对实时数据的接入,满足实时计算场景需求。
2023年3月底GaussDB(DWS)即将发布云原生数仓,提供存算管三层分离、极致弹性能力,提供湖仓一体、数智融合和优异性能体验。
本期直播完整视频点击链接查看,更多关于GaussDB(DWS)云原生数仓技术能力解析,请关注3月29日(本周三)下午16:30-18:00,华为云GaussDB(DWS)云原生首席SE 王传廷老师的直播课堂。直播报名链接:https://bbs.huaweicloud.com/signup/6f7874a9742e42389ddd6cc8b7af32d6
本文从提升用户行为分析效率角度出发,详细介绍了H5埋点方案规划,埋点数据采集流程,提供可借鉴的用户行为数据采集方案;且完整呈现了针对页面分析,留存分析的数仓模型规划方案。