本文分享自华为云社区《全球厂商之最,华为GaussDB&GeminiDB,17篇论文入选国际数据库顶会ICDE》 ,作者:GaussDB 数据库。
5月13-17日,国际数据库顶级学术会议 ICDE 2024 于荷兰乌得勒支举行。华为GaussDB 和GeminiDB 17篇论文入选,成为全球论文入选数量最多的数据库厂商。华为爱丁堡研究所数据库实验室主任Nikolaos Ntarmos发表了题为”Huawei Cloud GaussDB, a Better Way to Database“的演讲,向全球的学术机构和代表介绍了华为GaussDB的技术和商业成果。
ICDE全称为”IEEE International Conference on Data Engineering”(IEEE国际数据工程大会),与SIGMOD、VLDB 并称数据库领域三大顶会,是数据库领域最权威的国际顶级学术会议之一,在国际上享有盛誉并具有广泛的学术影响力。
ICDE收录了各大研究机构以及科技企业在数据库领域最前沿、最顶级的研究成果。ICDE 2024是第40届IEEE国际数据工程大会,华为17篇论文的入选,是华为科研团队与外部团队或组织友好合作共同努力的结果。下面将摘选华为在本次大会入选的部分论文,后续将对所有入选的论文进行专题解读。
《GaussML: An End-to-End In-database Machine Learning System》论文是由清华大学、华为和苏黎世理工大学联合共同完成,通过提升数据库内机器学习算法训练和推理的性能,深度满足用户实时性分析的诉求。该论文获得大会评审组的高度评价,认为其提出了一个全新的机器学习引擎。
原生库内机器学习框架,简称GaussML,将机器学习训练作为执行算子,利用数据库并行和分布式能力,展示出超越业界同类产品10倍以上机器学习推理和训练的性能优势,主要能力包括:
第一,论文首次提出数据库内原生AI机器学习引擎的架构,机器学习算法训练和推理融合在SQL执行流程中,借助数据库的优化器、负载管理、并发处理、分布式并行能力,实现机器学习训练和推理的极致高效;
第二,GaussML同时构建库内AutoML能力,可以自适应进行参数调整,根据负载变化进行模型更正,设计一种端到端模型自动调优的能力,简化用户调整模型参数代价,提升数据库内模型的使用便利;
第三,GaussML通过在数据库内置原生机器学习训练和推理流程,实现端到端自动调优能力,构建完整的库内机器学习引擎,支撑客户业务的智能实时分析。该框架通过提供SQL-like接口,简化数据科学家使用机器学习训练和推理代价,支持常用的机器学习算法,满足绝大多数客户使用。
综上,论文中提出一种全新的机器学习引擎,在多个公开数据集上该引擎表现出卓越的高性能优势,向数据库智能化发展上迈出了更远一步。
《GaussDB-Global: A Geographically Distributed Database System》论文是华为高斯数据库技术团队的研究成果。论文中提出了一种基于高精度时钟同步方法的分布式事务处理方法,并构建了跨地域分布式的全球数据库系统GaussDB-Global。该论文的主要实现:
第一,采用同步时钟的去中心化方法,地理分布式数据库系统解决了中心化事务管理器的性能瓶颈问题,实现了中心化的事务管理到去中心化分布式事务管理之间无缝过渡,提供了更加灵活、便捷的部署方式,实现一套集群全球化部署。
第二,在分片数据的远程读取和长距离日志传送问题上,地理分布式数据库系统支持在异步副本上读取,强一致性,可调整的新鲜度保证,以及动态负载均衡。在跨地域集群上的实验结果表明,与中心化基线相比,该方法提供了高达14倍的只读性能,标准数据集TPC-C吞吐量高出50%以上。
《QCFE: An Efficient Feature Engineering for Query Cost Estimation》论文是由哈尔滨工业大学和华为团队共同完成,通过提出了一个高效的特征工程方法(QCFE),解决了现有查询语句评估时的特征工程问题,该方法在时间-准确性效率方面取得显著改进。论文的主要贡献包括:
第一,提出了特征快照(Feature Snapshot)的概念,用于整合被忽略变量的影响,如数据库旋钮、硬件等,以提高查询成本模型的准确性。
第二,设计了差异传播特征减少方法,通过剪枝无效特征,进一步提高模型训练和推断效率。
第三,引入了简化的SQL模板设计,以提高计算特征快照的时间效率。
第四,在广泛的基准测试中,展示了QCFE相对于现有方法在时间-准确性效率方面的优势,包括TPC-H、job-light和Sysbench等。
综上,该研究的创新点在于提出了一种有效的特征工程方法,能够显著改善查询成本估算的时间和准确性。
《TRAP: Tailored Robustness Assessment for Index Advisors via Adversarial Perturbation》论文是由厦门大学、清华大学和华为共同研究,通过提出一个基于对抗性扰动的工作负载生成框架TRAP,解决了现有的index advisor的鲁棒性评估问题。
TRAP框架能够生成有效的对抗性工作负载,用于评估index advisor的鲁棒性。在index advisor的评估方面,TRAP具有明显优势。研究发现:
第一,通过对抗性工作负载的有效生成,可以准确评估index advisor的鲁棒性,因为这些工作负载不会偏离原始工作负载,但可以识别由于工作负载漂移而导致的性能漏洞。
第二,为设计更具鲁棒性的基于学习的index advisor,采用细粒度的状态表示和候选剪枝策略可以提高性能。
第三,对于设计更具鲁棒性的基于启发式的index advisor,考虑索引选择过程中的索引交互作用和多列索引的使用是至关重要的。
综上,以上发现为index advisor的设计和评估提供了深刻见解,并强调了在实际应用中评估index advisor的重要性。
《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》论文的问世,是为了帮助时序数据库通过提前感知异常来降低损失。通过设计了一个轻量的基于深度学习的时频掩码自编码器异常检测算法(TFMAE),展示了其在多个公开数据集上的良好性能。该论文被大会评审组高度评价,认为其提出了时序异常检测的新范式,最终无需修改被 ICDE 2024 直接录用。
作为首篇采用时频掩码对比的时序异常检测论文,论文研究围绕以下三点进行:
第一,提出了基于时间域和频率域掩码的时间序列异常检测对比准则,其代替传统重建误差确定异常检测阈值,这是一个不受分布偏移影响的判断准则。
第二,提出了基于窗口的时间域掩码策略和基于幅度的频率域掩码策略以消除序列中潜在的异常观察和模式。因此,TFMAE 是一个抗异常偏置模型。
第三,五个真实世界数据集与两个合成数据集上实验表明,TFMAE 在检测性能与速度方面均取得提升。
综上,《Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection》是首篇采用时频掩码对比的时序异常检测论文,对医疗、制造、金融等行业的广泛应用,具有现实推动作用。
本次大会华为入选论文研究方向涉及AI4DB、时序数据库、查询优化、数据库内机器学习算法训练和推理……如此多的科技成果得益于华为长期在数据库前沿技术领域的探索和实践,以及与全球顶尖学术机构共同解决数据库领域世界难题,通过产、学、研、用深度融合,将前沿创新研究融入产品技术,构建健康的数据库产业生态,为客户提供创新的、有竞争力的数据库产品和服务。
未来,华为将在数据库领域持续创新,持续深耕,引领行业发展走出新高度。