[来自IT168]【IT168 技术】在当前大数据环境下,我们处理数据迁移、转换的工作会越来越多,数据仓库的概念也越来越被熟知,现在有很多成熟的工具提供ETL 功能,即将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
数据仓库是很大的数据存储的集合,它主要是为了给企业出分析报告或者提供决策而创建的,它和数据库的区别主要还是概念上的,数据库是面向业务的,如果业务的数据库出现问题了,那么软件就无法使用了,而数据仓库是面向分析的,是为了企业做决策使用,比如通过分析企业的利润,来调整企业的业务发展和规划。
【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】作者:Philip J.Guo 翻译 Chaoslog平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。
#大数据#简介 Smart Kettle是针对上述企业的痛点,对kettle的使用做了一些包装、优化,使其在web端也能具备基础的kettle作业、转换的配置、调度、监控,能在很大一定程度上协助企业完成不同业务场景下数据的ETL(抽取、转换、加工)的能力。