数据湖是现在的一个热点,在大厂迅速普及,可在传统企业却不温不火,有点冰火两重天的意思,为什么?为了更好的理解这篇文章,建议大家可以先读读我这篇普及数据湖的文章《到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势》。
A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of data including raw copies of source system data, sensor data, social data etc., and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.
第一章 数据湖概述一 数据湖技术产生的背景国内的大型互联网公司,每天都会生成几十、几百TB,甚至几PB的原始数据。这些公司通常采用开源的大数据组件来搭建大数据平台。大数据平台经历过“以Hadoop为代表的离线数据平台”、“Lambda架构平台”、“Kappa架构平台”三个阶段。
国产唯一的开源数据湖存储框架 LakeSoul 近期发布了 2.0 升级版本,让数据智能触手可及。通过 LakeSoul 可以很好地支持实时搜广推的 Online Learning 范式,构建实时的机器学习样本库,无缝对接 AI 模型的实时训练和在线推理,实现数据智能化的应用。
与传统数仓建模使用的schema on write 模式相比,数据湖采用了一种 schema on read 的模式,即不会事先对它的 schema 做过多的定义,而是在使用的时候才去决定 schema,从而支持上游更丰富、更灵活的应用。
随着国内银行业数字化转型进程的加快,以及数据驱动战略在银行的落地实践,2019年中原银行围绕分布式数据仓库和大数据技术,以自主研发架构为主,构建了一套满足一站式数据集成、存储、整合、计算与开发的数据技术中台,解决了海量数据存储与分析的问题,并有效支撑了行内商业决策与各类应用规模化交付。
计算层则使用 Flink 进行出入湖,其中 Flink SQL 是最常用的出入湖方式,同时也用 Flink Datastream API 开发了一些高阶功能,出入湖的作业使用 Flink Application Mode 运行在 K8s 上。