Ubuntu16.04 hadoop 伪分布式 的文件配置

首先需要完成java环境的配置,这里就省略了。     

完成 hadoop 伪分布(pesudo distribution),只需配置下面 五 个文件即可:

  • hadoop-env.sh
  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

这些配置文件都在解压后的hadoop目录中的 etc/hadoop 目录下,下面是它们的具体作用和配置:

1 hadoop-env.sh

  这个用来配置 Java 环境的路径,在hadoop-env.sh中找到这一行:

export JAVA_HOME=

并将等号后面的内容替换成自己的java环境路径即可,如果不确定,执行sudo update-alternatives --config java 就能看到了,如果安装了多个java环境,可以从这儿选择某一个,每个条目的路径就是所需的java环境了, 比如我的执行结果是这样的:

Ubuntu16.04    hadoop 伪分布式 的文件配置

我目前用的是第二个条目的java环境,取bin之前的路径就是:   /usr/lib/jvm/java-8-openjdk-amd64/jre

2 core-site.xml

指定HDFS的通信地址和缓存存储的路径:

在core-site.xml的 configure 中分别加入这些片段,如下:

<configuration>
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop_installs/tmp</value>
</property>
</configuration>

3 hdfs-site.xml

指定hdfs的副本数量,这里就假设是 1 个:

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>

</property>
</configuration>

4 yarn-site.xml

yarn 是hadoop的统一资源管理器: 

<configuration>
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
</property>
</configuration>

5 mapred-site.xml

mapred是一种计算模型, 这里就指定 它使用yarn 来管理资源

<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

这里要把原来的mapred-site.xml.template 改成 mapred-site.xml 再编辑.

6 参考博客:

https://www.cnblogs.com/gyouxu/p/4183417.html