mapreduce读写hbase代码转成spark时,mapper方法中context.write(key,value)在循环内部,该如何转成spark的RDD?

mapreduce读写hbase代码转成spark时,mapper方法中context.write(key,value)在循环内部,该如何转成spark的RDD?

问题描述:

main方法如下:

Mapper类如下:

Reducer类如下:

改后的spark代码如下:

现在需要将dataRDD写入hbase,该如何处理呢?

最简单的方法就是用flatmap铺平拆出row来然后一条一条put进去,追求性能就直接写进hdfs里的hbase对应表的目录下
另外spark的结构就别套MapReduce的代码了