mapreduce读写hbase代码转成spark时,mapper方法中context.write(key,value)在循环内部,该如何转成spark的RDD?
问题描述:
main方法如下:
Mapper类如下:
Reducer类如下:
改后的spark代码如下:
现在需要将dataRDD写入hbase,该如何处理呢?
答
最简单的方法就是用flatmap铺平拆出row来然后一条一条put进去,追求性能就直接写进hdfs里的hbase对应表的目录下
另外spark的结构就别套MapReduce的代码了