作为数据相关的产品小白,在日常学习工作中经常能看到或者听到大家在讨论数据库,数据仓库,数据集市,数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查看各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。
数据湖是什么?数据仓库是什么?数据湖会取代数据仓库吗?近几年大数据的概念确实很多,也一直有人在问,但大多数文章讲的比较专业,很多人看完仍旧糊里糊涂。本人在大数据领域干了七八年了,这些东西本来也都有,只是现在给它取了个名字,再加上互联网的传播,一时间变“牛逼”了不少。
数据湖是现在的一个热点,在大厂迅速普及,可在传统企业却不温不火,有点冰火两重天的意思,为什么?为了更好的理解这篇文章,建议大家可以先读读我这篇普及数据湖的文章《到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势》。
第一章 数据湖概述一 数据湖技术产生的背景国内的大型互联网公司,每天都会生成几十、几百TB,甚至几PB的原始数据。这些公司通常采用开源的大数据组件来搭建大数据平台。大数据平台经历过“以Hadoop为代表的离线数据平台”、“Lambda架构平台”、“Kappa架构平台”三个阶段。
数据集成的目标是对数据进行集成,最早的数据集成系统可以追溯到1991年,明尼苏达大学在构建人口数据库系统IPUMS时,使用了一种数据仓库方法,从不同的数据源中进行数据提取、数据转换并加载到一个统一的模式中,实现了数据集成。