下面简单介绍 Paimon 的核心能力。它具备高吞吐、低延迟的数据摄入能力,同时支持流式订阅和批式查询。Paimon 支持主流的计算引擎和 OLAP 引擎,尤其与 Flink 的结合最为紧密。
湖仓一体架构
接下来看一下基于 Paimon 的湖仓一体架构。通过当前架构可以看出,相比前面介绍的 Flink + MQ 架构,其设计相当简洁。首先,在开发流程中,DWD 层不再依赖外部的 KV 存储,可直接使用 Paimon 作为维表,通过 Lookup Join 的方式进行维度关联。并且,从 DWD 层到 DWS 层也不再需要进行去重,因为 DWS 层可以直接消费 DWD 层的 Changelog,这样会极大地减少 Flink 作业的 Keyed State,保障数据的稳定性。由于 Paimon 维表目前存储在 HDFS 上,底层使用的是 SSD 存储,尽管如此,相比原有的 KV 存储,在资源成本上仍有非常大的收益。
在开发方式上,当前模式通过 Flink Batch 进行开发和调试,上线时再将作业转换为 Flink Streaming 模式在线上运行。对于整个测试流程,也与之前有所不同。在新的测试流程中,不再需要依赖 Hive 表,因为 Paimon 支持批式查询,且数据新鲜度可达到分钟级,这带来了测试效率的显著提升。