支持全面的多版本的 FlinkSQL 作业提交方式:Local、Standalone、Yarn Session、Yarn Per-Job、Kubernetes Session、Kubernetes Application。
导读本文将分享B站基于Hudi+Flink打造流式数据湖的落地实践,主要聚焦于数据湖引入后,在批流融合过程中遇到的若干问题及优化方案。文章包括四个部分:1. 背景与挑战,简要介绍B站数仓的现状和痛点,以及打造数据湖能力的愿景;2.
在数据的同步过程中,使⽤了 Flink CDC+MySQL 全量加增量的数据同步⽅式,同时还利⽤ Doris 的 Light Schema Change 特性实时同步 Binlog ⾥的 DDL 表结构变更,实现数据接⼊数仓零开发成本。
还有一个问题,上面有介绍过酒店订单的生命周期很长,用 union all 的方式,状态周期只保存了30分钟, 一些订单的状态可能已经过期,当出现订单状态时,我们需要获取订单的历史状态,这样就需要一个中间层保存历史状态数据来做补充。