Spark SQL与Presto之间的区别简单来说 Presto 就是“SQL查询引擎”,最初是为Apache Hadoop开发的。它是一个开源的分布式SQL查询引擎,用于对各种大小的数据集运行交互式分析查询。
Spark拥有Hadoop MapReduce所具有的优点,但不同于Hadoop MapReduce的是,Hadoop每次经过Job执行的中间结果都存储到HDFS等磁盘上,而Spark的Job中间输出结果可以保存在内存中,而不再需要读写HDFS。
编者按:高可用架构推出 2015 年度案例系列文章,分享在架构领域具有典型意义的年度案例,本文由谭政分享。转载请注明来自高可用架构公众号「ArchNotes」。谭政,Hulu 网大数据基础平台研发。曾在新浪微博平台工作过。
参考:Alluxio: A Virtual Distributed File System, Haoyuan Li, University of California, Berkeley, Technical Report No. UCB/EECS-2018-29。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。
Spark最大的优势就是将计算数据、中间结果都存储在内存中, 大大减少IO开销. 因此, Spark更适合于迭代运算比较多的数据挖掘与机器学习运算. 在使用Hadoop进行迭代计算时非常耗资源, 因为每次迭代都需要从磁盘中读取、写入中间数据, IO开销大. 而Spark将数据载入
·Hive使用目录结构进行数据分区并提高性能· Hive的大多数交互都是通过CLI或命令行界面进行的,并且HQL或Hive查询语言用于查询数据库· Hive支持四种文件格式,即TEXTFILE,ORC,RCFILE和SEQUENCEFILEHive的三个核心部分· Hive客户端
比如,在开发 streamis-datasource-transfer 模块对接 Linkis DataSource 时,由于缺少 Linkis DataSource 模块,阻塞了 Streamis 的开发测试进展,后经微众银行 WeDataSphere 大数据团队与天翼云大数据团队多次线上沟通协商、共同推进,解决了 Streamis 依赖 Linkis DataSource 模块的问题。
当使用 Hadoop 技术架构集群,集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值时,都会造成集群内数据分布不均匀、数据丢失风险增加等问题出现。本文对 HDFS 内部的数据平衡方式做了介绍,通过实验案例的方式向读者解释内部数据平衡的解决办法。
spark虽然完成的功能较多,但是每一个功能都做的不太好,每个功能组件都有更好更成熟的Hadoop生态圈组件替代。如下:spark批处理:flink,mapreduce.相对来说spark批处理的优势还是比较大的,这是它的强项。