MapReduce模型探究--总览

先从宏观上了解一下MR运行机制。

两个干活的：

（1）jobtracher：管理和调度job

（2）tasktracher：执行job划分后的task

client提交MR作业后，jobtracher对作业进行调度，并分配给tasktracher去执行，tasktracher和jobtracher间通过心跳（heartbear）来通信。

每个MR任务被初始化为一个job，job分为Map阶段和Reduce阶段，数据传输都是以<key,value>形式。

个人理解:Map阶段主要做对数据的处理，例如对单词的分割，为Reduce阶段做准备。

Reduce阶段，主要做对加工过的数据做统计和自己的业务逻辑。

MR这个模型还是蛮简单的，其中还有很多奥妙的地方，设计的很棒。

输入采用大文件，可以使用CombineFileInputFormat

<1>setup函数：task之前的全局操作。

<2>cleanup函数：task之后的操作。

<3>run函数：控制mr。

<1>可以顺序执行，起一个job的输出作为后一个的输入

<2>借助controlledJob和JobContral类

<3>Job设置预处理和后处理过程