官宣|Apache Paimon 孵化成功!毕业!

发布于:2024-04-19 ⋅ 阅读:(32) ⋅ 点赞:(0)

2024年4月16日 - Apache软件基金会(ASF),这个由320多个活跃的开源项目和计划的志愿开发者、管理员和孵化器组成的组织,今天宣布Apache Paimon已从孵化器毕业,成为一个顶级项目(TLP)。

恭喜Paimon!

01

流式湖仓解决方案


Paimon 流式湖仓解决方案 Streaming Lakehouse

0bd8cc0eae1a6a8d6f78663b7f891d62.png

提到数据湖,我们会想到三大开源数据湖Iceberg、Hudi、Delta,但是它们都无法完美的支持Flink这种实时流式处理。

那么,有没有开源的流式数据湖解决方案呢?

Paimon就是一个从Flink孵化出来的流式数据湖项目,也是未来一段时间大数据的技术趋势所在。

Apache Paimon。

派蒙这个名字对于玩过原神的同学来说,应该会比较亲切。

什么是Paimon?

2021年末,Flink官方提出打造一个全新的存储 Flink Table Store,一个 Flink 完全内置的存储。

在发布了三个版本后,虽然 Flink Table Store 具备了一定的成熟度。

但作为 Flink 社区的一个子项目,在生态发展如Spark用户的使用方面存在比较明显的局限性。

为了让 Flink Table Store 能够有更大的发展,Flink PMC经过讨论决定将其捐赠Apache进行独立孵化。

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,

正式进入 Apache 软件基金会的孵化器,改名为 Apache Paimon。

进入孵化器后,Paimon 得到了众多的关注,包括阿里云、字节跳动、Bilibili、汽车之家、蚂蚁等多家公司参与到 Apache Paimon 的贡献,也得到了广大用户的使用。

Paimon 基于数据湖 + LSM,有很强的 Upsert 更新能力。

ad596f69027655073685c7e2543ec162.png

Paimon 从 Flink 中孵化出来,支持 Flink SQL 所有特性,包括 Flink CDC,Spark 也是生态中必须的一环,所以 Paimon 从一开始就面向多计算引擎。

Paimon 原生面向实时数据湖场景进行设计,能够大幅提升数据湖全链路的数据新鲜度,快速迭代,快速发展。

未来的数据湖,也将迎来全新的Streaming Lakehouse,通用的 Lakehouse 架构时代。

具体的介绍可以参考下面的视频。

02

顺利毕业

  • 在经过一段时间的孵化后,Paimon顺利毕业。我们可以在Apache官网上看到最新的公告。

  • 30f1196f7dd82bd5fd33441811b61d33.png

  • 2024年4月16日 - Apache软件基金会(ASF),这个由320多个活跃的开源项目和计划的志愿开发者、管理员和孵化器组成的组织,今天宣布Apache Paimon已从孵化器毕业,成为一个顶级项目(TLP)。Paimon是一种数据湖格式,可以通过Apache Flink和Apache Spark实现实时湖房架构,用于流和批处理操作。Paimon创新地将湖格式和日志结构合并树(LSM)相结合,将实时流更新引入数据湖。

    734bab92a9425db48cca3127e019ee0d.png

该公告还同时介绍了Paimon的一些信息。

Paimon前身是由Flink社区首先开发的Flink Table Store。目前Paimon已被阿里巴巴、蚂蚁集团、字节跳动、中国联通、同程等全球多家公司在生产环境中使用。

Paimon支持批流结合的处理方式,同时提供了高性能的数据处理,追加表,实时分析,变更日志生成等功能。

GitHub: https://github.com/apache/paimon

网站: https://paimon.apache.org/

贡献: https://paimon.apache.org/docs/master/project/contributing/

Apache孵化器是希望成为Apache软件基金会努力成果的项目和代码库的主要入口。所有来自外部组织和现有外部项目的代码捐赠都通过孵化器进入ASF。

相信未来的Paimon会越来越好!


更多大数据、数据治理、人工智能相关知识与咨询,请关注大数据流动

e2a4f010110d46060d95be4691e583e1.png