Hadoop序列化和数据输入输出类

序列化就是把内存中的对象转换成字节序列，以便存储到磁盘和网络传输。

反序列化就是把字节序列转换成内存中的对象。

Java序列化是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的信息，不便于网络传输，所以Hadoop自己开发了一套序列化机制（Writable)。

不是所有基本类型都能满足需求，实现bean对象序列化有6步

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

数据块:Block是在HDFS上物理的把数据切成一块一块。数据切片:split是逻辑上对输入切片。

一个Job的Map阶段并行度，即Map个数是由客户端提交Job的切片数决定的。每一个split切片分配一个MapTask并行处理。默认情况下切片大小等于块大小。

如果有很多小文件，就会产生大量的Maptask，处理效率低，这时候就可以用CombineTextInputFormat，可以将多个小文件从逻辑上规划到一个切片中，多个小文件交给一个MapTask处理。

FileInputFormat常见的接口实现类包括:TextInputFormat,KeyValueTextInputFormat,NLineInputFormat,CombineTextInputFormat。

TextInputFormat类是默认的FileInputFormat实现类，按行读取每条记录，键是存储该行在整个文件中的起始字节偏移量，LongWritable类型，值是这行的内容。
KeyValueTextInputFormat，每一行为一条记录，（line1,line1的内容）

全排序，实现compareTo()类，分区为1即可实现。部分排序，实现partitioner类，分区后自动排序。

Combiner在MapTask节点运行，Reduce在ReduceTask节点运行。

Combiner局部汇总，减小网络传输量。前提是不能影响业务逻辑。

在Reduce阶段对数据分组。