Spark概述

Spark概述

1. Spark定义
构建与计算集群之上支持大数据集的快速的通用的处理引擎
a)快速： DAG、Memory
b)通用：集成Spark SQL、Streaming、Graphic、R、Batch Process
c)运行方式：
StandAlone
YARN
Mesos
AWS
d)数据来源：
Hdfs Hbase Tachyon Cassandra Hive
and Any Hadoop Data Source
2.Spark协议栈
2.1 Hadoop生态系统
Spark概述
2.2 Spark协议栈

2.3 Spark VS Mapreduce

Spark概述

MapReduce 与Spark比较
1.what? 处理对象
a)MapReduce:基于磁盘File的大数据处理系统
b）Spark：基于RDD(弹性分布式数据集)，可以显示的将RDD数据存储到磁盘和内存中
2.where(软硬件上下文)？
a)MapReduce: Disk
b)Spark: Mem
3.when？(应用场景)
a)MapReduce：可以处理超大规模数据，适合日志分析挖掘等迭代较少的长任务需求，结合了数据的分布式的计算
b)spark：适合数据的挖掘，机器学习等多伦迭代式计算任务

容错性：
a)数据容错性
MapReduce：容错性基于HDFS 冗余机制 ->安全模式->数据校验->元数据保护
spark：容错性基于RDD，spark容错性比mapreduce容错性低，但在处理效率上优势比较明显
b)节点容错性

相关推荐