Spark最大的优势就是将计算数据、中间结果都存储在内存中, 大大减少IO开销. 因此, Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源, 因为每次迭代都需要从磁盘中读取、写入中间数据, IO开销大. 而Spark将数据载入
Spark拥有Hadoop MapReduce所具有的优点,但不同于Hadoop MapReduce的是,Hadoop每次经过Job执行的中间结果都存储到HDFS等磁盘上,而Spark的Job中间输出结果可以保存在内存中,而不再需要读写HDFS。
前言阿里巴巴智能服务事业部数据开发专家。大数据践行者,致力于通过数据和算法的智能化来赋能商业与社会,拥有十余年大数据一线实战经验,尤其对于智能化产品的大数据开发、架构和未来数据产品设计有丰富经验及深入认识。
导读: 随着业务量快速增长,云积互动对数据的实时性及灵活性提出更高要求,早期基于 CDH 的大数据平台已无法满足当前难度以及复杂度较高的的业务需求,因此云积互动于 2021 引进 Apache Doris 在部分业务中使用,并在使用过程中逐渐发掘出 Apache Doris 更多