摘要:openGemini是一个开源的分布式时序数据库系统,可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景,具备卓越的读写性能和高效的数据分析能力。
本文分享自华为云社区《华为云面向全球正式开放openGemini内核源码》,作者: 云数据库创新Lab。
物联网时代已经来临,物联网设备走进我们的日常生活,例如智能冰箱、电动汽车、智能手表等等。公开报告显示,预计到2025年,中国的物联网连接数会占到全球的30%。这些联网的设备每时每刻都在产生大量的数据,每天的数据增长量可以达到GB级甚至TB级,给数据库带来非常大的挑战,例如:高并发写入大量数据导致数据入库太慢,海量数据引起过高的存储成本和查询时延等等。时序场景作为物联网领域的典型场景,与传统关系型数据库场景有很大区别,时序数据库专为时序场景设计和优化,近年来开始受到越来越多的关注。
华为云整合产业和技术优势,打造了业界领先的企业级时序数据库GaussDB for Influx,并经过外部公有云业务服务化的锤炼以及内部DevOps等业务的长时间打磨,在大规模集群、高性能查询、分级压缩存储等方面都有明显优势。今年6月,华为云宣布将GaussDB for Influx内核正式对外开源,开源品牌命名为openGemini。
openGemini是一个开源的分布式时序数据库系统,可广泛应用于物联网、车联网、运维监控、工业互联网等业务场景,具备卓越的读写性能和高效的数据分析能力。
openGemini采用MPP 大规模并行处理分层架构,由ts-sql(计算引擎)、ts-store(存储引擎)、ts-meta(元数据引擎)三大部分组成。openGemini既支持集群部署,也可以单机部署。
ts-sql:统一处理客户端请求
ts-store:数据管理
ts-meta:元数据管理
高性能读写
兼容时序生态
分布式
海量时序数据高效管理
部署灵活
针对物联网、运维监控等领域海量数据管理和分析的需求,openGemini对计算引擎和存储引擎做了大量的优化设计。
数据吞吐量和查询时延是评价一个时序数据库性能的关键指标,openGemini经过大量优化后,整体性能表现出色。下方的测试结果显示了openGemini 从4U扩展到32U的性能表现,可以看出:
在业界流行的时序数据库Benchmark测试工具TSBS的15个标准测试场景中,openGemini性能表现优异,15个标准测试场景可分为简单查询、中等查询和复杂查询三大类型:
openGemini相比开源InfluxDB,简单查询场景提升2倍多,中等查询场景提升4倍多;复杂查询场景下,openGemini依然可以快速响应,然而InfluxDB则出现OOM无法工作。
时序数据采集的最终目的是让数据被理解和使用,数据分析是其中关键的一环。时序数据库具有广泛的应用场景,使得时序应用日益多样化,数据分析需求在不断变化和增加,这要求时序数据库能快速应对不同数据分析需求,不断丰富内部的分析算子。
与此同时,传统的大数据分析工具(比如Spark、Flink等)过于厚重,部署成本高;搭配时序数据库进行分析时,离数据较远,数据分析实时性无法满足要求。随着物联网、传感器技术、5G的快速发展,迫切需要一种更有效的方法来处理海量、高速的时序数据,而用户真正需要的是一个能够以最低时延和最高吞吐量处理、检测和预测信息的系统,这样的系统在业界开源的数据库中少之又少。
相对应的,openGemini具有丰富的聚合分析算子(COUNT、SUM、MAX、MIN等共计60余种)、统计分析算子(PERCENTILE分位数、HISTOGRAM直方图等)、异常检测和预测算子(内置13种异常检测器,可覆盖常见的离群点、数值变化、阈值、持续上升下降等时序异常场景)。其中基于AI的异常检测的实现过程中,充分考虑了数据分布,提供近数据计算能力,能提升端到端数据分析和计算效率。
openGemini 源于华为云GaussDB for Influx,GaussDB for Influx已经在华为云许多内部重要业务上使用,通过技术的升级,替代了Cassandra、InfluxDB、HBase、OpenTSDB等多套系统部署,实现了降本增效。
openGemini在承载相同业务场景下,较原系统端到端时延减低50%,CPU资源上可以节省68%,内存资源可以节省50%,硬盘资源可以节省90%以上。
开源是开放创新的有效手段,是数字时代的事实标准和专利。DB-Engines的统计数据表明,从 2021 年开始,开源数据库的流行指数已经超过商用数据库,开源时序数据库占比更是高达80%,openGemini时序数据库作为基础软件,也需要拥抱开源。
openGemini时序数据库经历了几个发展阶段。从最初基于开源InfluxDB的架构改造,到应对内部数十亿海量时间线挑战,再到自研数据库引擎,一路打磨,经受住了华为云内、外部100余家用户的生产检验。openGemini现在以及将来取得的成绩,都离不开开源社区肥沃的土壤。openGemini的开源,希望可以倡导开源文化,以实际行动回馈开源。
我们深知独木难成林,百川聚江海的道理,但开源生态建设并非朝夕之功,也并非一个企业自身就能完成,而是一个聚沙成塔、集腋成裘的过程,唯有携手伙伴共建、共享,方能打造出健康繁荣的开源生态。我们希望把openGemini社区作为一个支点、一个开放创新平台,通过释放华为云内部多年积累的时序数据库技术研发和应用的实践经验,吸引更多的伙伴与开发者参与贡献,不断改善openGemini生态和竞争力,持续打造开放的技术产品和应用生态,使能物联网、工业互联网等行业数字化转型,促进产业协同,以应对生存环境愈发复杂,行业竞争愈发激烈,业务发展愈发多样的数字化时代。
本次发布的v0.1.0是具有完整时序数据库功能的版本,详细信息请点击查看用户指南。
v0.1.0版本主要特性:
详细版本路标已发布,请前往社区查阅。
为方便了解和参与社区贡献,我们为您准备了贡献指南。
社区合作、寻求社区帮助、相关问题咨询渠道:
openGemini官网主页: http://www.openGemini.org/
openGemini开源地址: https://github.com/openGemini