洪帅,京东资深数仓技术专家,就职于京东零售技术与数据中心,从事大数据相关工作,经历京东数仓建设的全阶段,搭建分布式数仓架构、全域数据资产和数据应用体系,在数据资产管理和数据质量保障方面,有丰富的实战经验,通过沉淀全域数据资产,提供统一、标准、高质量的公共数据服务,支撑京东零售数字化运营和规模化创新。
一般数据集成用到的工具主要有:Sqoop、DataX、或是本章讲解的 SeaTunnel,这三个工具都是数据转换集成工具,使用其中一个即可,其实也可以这样认为 Sqoop 是第一代,DataX 是第二代,SeaTunnel 是第三代工具,Sqoop 用的不是很多了,Datax 应该用的还是比较多的,SeaTunnel 是 Apache 顶级项目,也是最新代的数据集成工具,有兴趣的小伙跟随我的文章一起来了解 SeaTunnel 工具。
在数据的同步过程中,使⽤了 Flink CDC+MySQL 全量加增量的数据同步⽅式,同时还利⽤ Doris 的 Light Schema Change 特性实时同步 Binlog ⾥的 DDL 表结构变更,实现数据接⼊数仓零开发成本。