spark离线数据处理流程

资讯

十年大数据专家，手把手带你玩转大数据，Spark技术栈的深度解析
Spark最大的优势就是将计算数据、中间结果都存储在内存中，大大减少IO开销. 因此， Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源，因为每次迭代都需要从磁盘中读取、写入中间数据， IO开销大. 而Spark将数据载入
大数据架构师
1评论
基于对象存储的离线大数据处理架构和应用实践
熵简科技大数据处理系统目前已经累计完成 3.7 PB 规模的大数据处理和分析，覆盖了超 2000+ 数据源，涉及丰富的数据类型，如宏观经济数据、电商招聘等另类数据、研报新闻等文本类数据。
半历写书
3评论
Spark原理及应用
Spark拥有Hadoop MapReduce所具有的优点，但不同于Hadoop MapReduce的是，Hadoop每次经过Job执行的中间结果都存储到HDFS等磁盘上，而Spark的Job中间输出结果可以保存在内存中，而不再需要读写HDFS。
勇者热情生活家
1评论
Spark—15分钟教程
无论你是想快速入门介绍sparksql，还是急于编写你的程序，还是像我一样需要一份备忘单，我相信你会发现这篇文章很有用。
IT老周
《离线和实时大数据开发实战》读书笔记
本文是对于《离线和实时大数据开发实战》一书的笔记，在大数据处理这块，我接触更多的是自研或者使用厂内自研的基础工具，虽然思想总是有共通的地方，但是终究缺乏开源实战经验。
HelloCodeYing
23评论
阿里十年大数据专家实践经验分享：离线和实时大数据分析和算法
前言阿里巴巴智能服务事业部数据开发专家。大数据践行者，致力于通过数据和算法的智能化来赋能商业与社会，拥有十余年大数据一线实战经验，尤其对于智能化产品的大数据开发、架构和未来数据产品设计有丰富经验及深入认识。
程序员高级码农II
1评论
Apache Kyuubi + Hudi在 T3 出行的深度实践
离线数据处理:利用 Hive on Spark 批处理能力，在 Apache Dolphin Scheduler 上定时调度，承担所有的离线数仓的 ETL 和数据模型加工的工作。
Lakehouse
18评论
岂止于大，一文读懂大数据及其在推荐系统的应用
写在最后的话：大数据太多知识点了，受篇幅所限，这次只选择性地介绍推荐系统需要用到的大数据开源类组件。
人人都是产品经理
5评论
人群圈选效率提升30倍，云积互动基于Apache Doris构建统一数仓
导读：随着业务量快速增长，云积互动对数据的实时性及灵活性提出更高要求，早期基于 CDH 的大数据平台已无法满足当前难度以及复杂度较高的的业务需求，因此云积互动于 2021 引进 Apache Doris 在部分业务中使用，并在使用过程中逐渐发掘出 Apache Doris 更多
SelectDB
4评论

视频