Spark: Cluster Computing with Working Sets
Abstract
分布式计算领域的map reduce模型已经获得巨大的成功,但该模型更适用于非循环数据流模型。有一类应用则是需要重用跨多个并行操作的工作集数据:比如迭代机器学习算法和交互式数据分析工具。Spark在保留Map reduce的可扩展性和容错性的基础上,提出RDD
分布式计算领域的map reduce模型已经获得巨大的成功,但该模型更适用于非循环数据流模型。有一类应用则是需要重用跨多个并行操作的工作集数据:比如迭代机器学习算法和交互式数据分析工具。Spark在保留Map reduce的可扩展性和容错性的基础上,提出RDD