Spark拥有Hadoop MapReduce所具有的优点,但不同于Hadoop MapReduce的是,Hadoop每次经过Job执行的中间结果都存储到HDFS等磁盘上,而Spark的Job中间输出结果可以保存在内存中,而不再需要读写HDFS。
于是就出了个 Hive,支持类 SQL 语句,不需要显示编写 map 和 reduce 的代码,仅仅写个 SQL, Hive 就可以把这个 SQL 转成对应的 MapReduce 代码,然后执行返回结果,降低了使用成本,是个好东西。