Spark streaming和storm、Hadoop与Spark的对比

Spark 与 Hadoop 的对比

原生语言：Hadoop-JAVA，Spark-scala
计算模型：Hadoop-MapReduce，Spark-DAG（有向无环图）
经常有人说Spark就是内存版的MapReduce，实际上不是的。Spark使用的DAG计算模型可以有效的减少Map和Reduce人物之间传递的数据，尤其适合反复迭代的机器学习场景。而Hadoop则更擅长批处理。不过Tez也是使用的DAG计算模型，他也是Hadoop，明眼人都知道DAG计算模型比MR更好。
Spark的提出很大程度上是为了解决MapReduce在处理迭代算法上的缺陷。apReduce的缺陷很多，最大的缺陷之一是Map ＋ Reduce的模型。这个模型并不适合描述复杂的数据处理过程。由于MapReduce的数据流是acyclic的，且数据存储在磁盘，这就导致在迭代计算时需要反复进行磁盘读写操作，大大降低了计算效率。而事实上当前机器学习的大多数算法都是迭代算法，因此解决这一问题具有很大的应用价值。
Spark解决这一问题的方法是提供了一个更强大的primitive数据抽象模型–RDD(Resilient Distributed Datasets)，并定义了一系列转化（map,filter,sample,…）和分布式操作(reduce,collect,count…)。
存储：Hadoop-HDFS， Spark-RDD，HDFS
Spark既可以仅用内存存储，也可以在HDFS上存储，即使Spark在HDFS上存储，DAG计算模型在迭代计算上还是比MR的更有效率。
实际上从应用场景上区分，Hadoop更适合做批处理，而Spark更适合做需要反复迭代的机器学习。
Spark的优势不仅体现在性能提升上的，Spark框架为批处理（Spark Core），交互式（Spark SQL），流式（Spark Streaming），机器学习（MLlib），图计算（GraphX）提供一个统一的数据处理平台，这相对于使用Hadoop有很大优势。

那么Spark解决了Hadoop的哪些问题呢？

抽象层次低，需要手工编写代码来完成，使用上难以上手。
- =>基于RDD的抽象，实数据处理逻辑的代码非常简短。。
只提供两个操作，Map和Reduce，表达力欠缺。
- =>提供很多转换和动作，很多基本操作如Join，GroupBy已经在RDD转换和动作中实现。
一个Job只有Map和Reduce两个阶段（Phase），复杂的计算需要大量的Job完成，Job之间的依赖关系是由开发者自己管理的。
- =>一个Job可以包含RDD的多个转换操作，在调度时可以生成多个阶段（Stage），而且如果多个map操作的RDD的分区不变，是可以放在同一个Task中进行。
处理逻辑隐藏在代码细节中，没有整体逻辑
- =>在Scala中，通过匿名函数和高阶函数，RDD的转换支持流式API，可以提供处理逻辑的整体视图。代码不包含具体操作的实现细节，逻辑更清晰。
中间结果也放在HDFS文件系统中
- =>中间结果放在内存中，内存放不下了会写入本地磁盘，而不是HDFS。
ReduceTask需要等待所有MapTask都完成后才可以开始
- => 分区相同的转换构成流水线放在一个Task中运行，分区不同的转换需要Shuffle，被划分到不同的Stage中，需要等待前面的Stage完成后才可以开始。
时延高，只适用Batch数据处理，对于交互式数据处理，实时数据处理的支持不够
- =>通过将流拆成小的batch提供Discretized Stream处理流数据。
对于迭代式数据处理性能比较差
- =>通过在内存中缓存数据，提高迭代式计算的性能。

Spark streaming&storm流计算的相关对比

Spark streaming和Storm作为当今流行的实时流计算框架，已经在实时计算方案应用的非常广泛了，其中Spark streaming是基于Spark的一个扩展，比storm的出现要晚一些。本节从以下几个角度对两者进行了阐述，可以作为选型方面的一个参考。

数据处理方式

Spark streaming是构建在Spark上的实时流计算框架，利用时间批量窗口生成Spark的计算输入源RDD，后对该RDD生成Job，进行排队调度到Spark计算框架中执行，底层是基于Spark资源调度和任务计算框架的；Spark streaming是基于数据的批处理方式，针对数据形成任务进行计算，是移动计算而不移动数据，而Storm恰恰相反，storm在处理架构上是数据流入到计算节点，移动的是数据而不是计算，对于时间窗口的批量数据处理，需要用户自己来实现，这个在之前的storm系列的相关章节中有介绍。

生态体系

Spark streaming是基于Spark的，可以和Spark其他的组件结合，实现交互式的查询adhoc，机器学习MLib等。Storm相对来讲，只是作为一个流式计算框架，缺乏现有的Hadoop生态体系的融合。

延迟以及吞吐量

Spark streaming基于对批量数据的处理，依赖Spark的调度和计算框架，在延迟方面比storm要高，一般最小的延迟在2s左右，而storm可以达到100ms以内。正因为Spark streaming是批处理的方式处理数据，整体的吞吐量比较高。

容错性

Spark streaming通过lineage以及在内存维护两份数据备份进行容错，通过lineage记录之前对RDD的操作，若某节点在运行时候出现故障，则可以通过备份数据在其他节点重新计算得到。

Storm通过ack组件进行数据流的跟踪，开销比Sparking streaming要大。

事务性

Spark streaming保证数据只被处理一次，并且是在批处理的层次级别。

Storm通过跟踪机制能保证每个记录至少被处理一次，如果需要保证状态只更新一次的话，需要由用户自己来实现。

所以对于statefull的计算，对事务性比较高的话，Spark streaming要更好一些。

参考

与 Hadoop 对比，如何看待 Spark 技术？
Spark streaming&storm流计算的相关对比
 Spark Streaming实时计算框架介绍