Streamsets 是由 Informatica 前首席产品官 Girish Pancha 和 Cloudera 前开发团队负责人 Arvind Prabhakar 于 2014 年创立的公司,总部设在旧金山。
这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
想要好运气?关注我就是你的幸运符!点个关注点赞,财富好运来! 90% 人都不知的数据孤岛解决之道竟在这里 附8款ETL工具独家盘点!数据围城:你的数据,真的为你创造价值了吗?你有没有想过,我们每天产生的海量数据,究竟去了哪里?
元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。分布式计算系统运行元数据,如 MaxCompute 上所有作业运行等 信息:类似于 Hive 的 Job 日志,包括作业类型、实例名称、输入输出、 SQL 、运行参数、执行时间、最细粒度的 FuxiInstance 执行信息等。
一般数据集成用到的工具主要有:Sqoop、DataX、或是本章讲解的 SeaTunnel,这三个工具都是数据转换集成工具,使用其中一个即可,其实也可以这样认为 Sqoop 是第一代,DataX 是第二代,SeaTunnel 是第三代工具,Sqoop 用的不是很多了,Datax 应该用的还是比较多的,SeaTunnel 是 Apache 顶级项目,也是最新代的数据集成工具,有兴趣的小伙跟随我的文章一起来了解 SeaTunnel 工具。
DataX-Web版,通过一站式服务,更轻松的让使用者操作,需Clone并且配置相关信息即可使用。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
为了更好地理解,我们先来介绍一下数仓从 ETL 到 EtLT 的架构演进。回顾过去,我们会发现其实整个数仓在 1990 年到 2015 年都是 ETL 的架构,在这个架构下数据源主要是结构化数据,如 MySQL、SQL、Server、Oracle、ERP、CRM 等。