本次分享题目为数仓建模平台在网易严选的探索和实践,主要以下几部分内容:1. 背景及现状。数仓建设的意义,简单来说就是将业务数据通过整合、转换、计算以及其它一些操作,提取出有价值的信息,最终把这些信息反馈给业务,为业务的发展持续赋能。
大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数据中台的核心组成,以及一些技术选型参考;数据研发是数据中台很重要的一环,会分享一些我们在数据研发方面的实践,主要是数据仓库架构与研发方面。
为了数据湖更好的落地,我们在落地之前与业务做了一些深入的沟通,并根据不同业务的特点主要分为了三个场景:1)场景一典型的业务主要是短视频和直播,它的数据量级一般都比较大,例如大流量的日志数据,其计算周期一般是自然的天、小时或者分钟级别的,实时性的要求一般是五分钟内,主要诉求是批流的复用,可以容忍少量数据的不一致。
还有一个问题,上面有介绍过酒店订单的生命周期很长,用 union all 的方式,状态周期只保存了30分钟, 一些订单的状态可能已经过期,当出现订单状态时,我们需要获取订单的历史状态,这样就需要一个中间层保存历史状态数据来做补充。
公司每日产生海量数据,按业务需要进行统计产出各类分析报表,但巨大的数据量加上复杂的数据模型,以及个性化的分析维度,采用传统的离线预计算方式难以灵活支持,为此需引入一种满足实时多维分析场景的计算引擎框架来支撑业务精细化运营场景。