parquet极简学习

# parquet极简学习 ## 摘要 ``` parquet的概念: Parquet文件是一种列式存储文件格式,广泛应用于大数据处理框架, 如Apache Hadoop和Apache Spark。 它通过将数据组织成列而不是行来优化大型数据集的读写。 这种列式存储格式允许进行高效压缩、更好的查询性

使用部分写时复制提升Lakehouse的 ACID Upserts性能

## 使用部分写时复制提升Lakehouse的 ACID Upserts性能 译自:[Fast Copy-On-Write within Apache Parquet for Data Lakehouse ACID Upserts](https://www.uber.com/en-ZA/blog/f

在Apache Hudi数据湖上实现近乎实时的数据分析

介绍 在数据处理领域,数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口,可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率,选择合适的存储格式至关重要。 Vanilla数据湖解决方案构建在具有 Hive 元存储的云对象存储之上,其中数据文件以 Parquet 格

云小课|MRS基础原理之Hudi介绍

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎。 本文分享自华为云社区

  • 首页
  • 上一页
  • 1
  • 下一页
  • 尾页