首页专栏 hadoop 文章详情

Hadoop - 集群安装

大军发布于 5 月 12 日

环境准备

我这里准备四个虚拟机，ip分别为：

# bigdata01 192.168.11.100 # bigdata02 192.168.11.101 # bigdata03 192.168.11.102 # bigdata04 192.168.11.103

主机命修改

主机名修改为bigdata01、bigdata02、bigdata03、bigdata04。

# 进入文件 vi /etc/hostname # 修改文件，这里根据不同的服务器修改 bigdata01

新建账户

新建账户为bigdata，并设置密码，设置权限，bigdata的权限等同于root

# 进入文件 vi /etc/sudoers # 新增配置 bigdata ALL=(ALL) ALL

关闭防火墙/关闭Selinux

# 关闭防火墙 systemctl disable firewalld

关闭selinux

# 进入文件 vi /etc/selinux/config # 修改配置 SELINUX=disabled

域名映射

# 进入文件 vi /etc/hosts # 新增配置 192.168.11.100 bigdata01 192.168.11.101 bigdata02 192.168.11.102 bigdata03 192.168.11.103 bigdata04

置SSH免密登录

bigdata用户登录，在每个虚拟机执行ssh-keygen命令，一直enter下去，直至id_rsa.pub和id_rsa两个文件生成。
生成后，每个虚拟机执行以下命令发送公钥文件：

ssh-copy-id bigdata01 ssh-copy-id bigdata02 ssh-copy-id bigdata03 ssh-copy-id bigdata04

发送后通过ssh验证，比如当前在bigdata01服务器，ssh bigdata02看看能不能免密登录到bigdata02服务器，如果可以，就说明设置成功。
如果设置了还不行，就需要注意设置文件夹和文件的权限。因为sshd为了安全，对属主的目录和文件权限有所要求。如果权限不对，则ssh的免密码登陆不生效。

chmod 700 /home/bigdata chmod 700 /home/bigdata/.ssh chmod 600 /home/bigdata/.ssh/authorized_keys

编译

我这边安装的是2.7.7版本。
编译之前除了下载相应版本的源码包，还需要查看官方的BUILDING.txt文件，这个文件描述了当前版本的编译需要的依赖项，以及依赖项的安装、配置。
下面是官方的截图，比如Unix系统，需要JDK1.7+、Maven3.0等。

以上软件都安装完成后，就可以通过maven对源码进行编译，编译后，我们就可以在target生成一个hadoop-2.7.7.tar.gz文件，至此编译完成。

编译后把生成的文件解压到制定目录，比如我这里是/home/bigdata/apps/hadoop-2.7.7。

配置文件

参考官方
配置之前，我们的规划是这样的,4个节点，3个副本：

节点名称 HDFS YARN bigdata01 NameNode NodeManager bigdata02 DataNode + SecondaryNamenode NodeManager bigdata03 DataNode NodeManager bigdata04 DataNode ResourceManager

hadoop-env.sh

配置Hadoop守护进程环境，路径：etc/hadoop/hadoop-env.sh。

参数描述必选 JAVA_HOME JAVA_HOME的路径是 HADOOP_PID_DIR HADOOP的PID文件路径否 HADOOP_LOG_DIR HADOOP的日志文件路径否 HADOOP_HEAPSIZE 使用的最大堆大小，以MB为单位，默认1000M 否

core-site.xml

路径：etc/hadoop/core-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 fs.defaultFS NameNode的URL hdfs://bigdata01:9000 io.file.buffer.size equenceFiles中使用的读/写缓冲区的大小。 131072 hadoop.tmp.dir 集群相关的数据存储目录 /home/bigdata/data/hadoopdata

hdfs-site.xml

配置NameNode和DataNode信息，路径：etc/hadoop/hdfs-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 dfs.namenode.name.dir 本地文件系统上的路径，NameNode在其中持久化存储命名空间和事务日志，如果用逗号隔开，那每个目录都冗余存储 /home/bigdata/data/hadoopdata/name dfs.blocksize HDFS块大小比如268435456，即256MB dfs.datanode.data.dir datanode的数据存储目录，如果用逗号隔开，那每个目录都冗余存储 /home/bigdata/data/hadoopdata/data dfs.replication 副本个数 3 dfs.secondary.http.address secondarynamenode运行节点的信息 bigdata02:50090

yarn-site.xml

配置yarn的ResourceManager和NodeManager信息。路径：etc/hadoop/yarn-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 yarn.resourcemanager.hostname 主节点的位置 bigdata04 yarn.nodemanager.aux-services MapReduce应用需要的shuffle服务 mapreduce_shuffle

/mapred-site.xml

配置MapReduce应用。路径：etc/hadoop/mapred-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 mapreduce.framework.name 执行框架设置为Hadoop YARN yarn

Slaves文件

配置slave节点，路径：etc/hadoop/slaves。内容如下：

bigdata01 bigdata02 bigdata03 bigdata04

分发各环境

scp -r hadoop-2.7.7 bigdata02 scp -r hadoop-2.7.7 bigdata03 scp -r hadoop-2.7.7 bigdata04

环境变量

每个环境都执行以下命令

# 进入文件 vim ~/.bashrc # 新增配置 export HADOOP_HOME=/home/bigdata/apps/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

运行

集群初始化，执行以下命令，注意仅第一次的时候需要。

# 仅第一次 hadoop namenode -format

启动HDFS集群，可以在任意节点

# 可以在任意节点 start-dfs.sh

启动YARN集群，在YARN节点上执行

# 在YARN节点上执行 start-yarn.sh

启动成功验证：
网址输入http://bigdata01:50070，界面...

输入http://bigdata04:8088，界面如...

集群安装完成。

hadoop

阅读 41 发布于 5 月 12 日

赞收藏

本作品系原创，采用《署名-非商业性使用-禁止演绎 4.0 国际》许可协议

大军

踏踏实实

634 声望

92 粉丝

关注作者

0 条评论

得票数最新

提交评论

你知道吗？

注册登录

大军

踏踏实实

634 声望

92 粉丝

关注作者

宣传栏

环境准备

我这里准备四个虚拟机，ip分别为：

# bigdata01 192.168.11.100 # bigdata02 192.168.11.101 # bigdata03 192.168.11.102 # bigdata04 192.168.11.103

主机命修改

主机名修改为bigdata01、bigdata02、bigdata03、bigdata04。

# 进入文件 vi /etc/hostname # 修改文件，这里根据不同的服务器修改 bigdata01

新建账户

新建账户为bigdata，并设置密码，设置权限，bigdata的权限等同于root

# 进入文件 vi /etc/sudoers # 新增配置 bigdata ALL=(ALL) ALL

关闭防火墙/关闭Selinux

# 关闭防火墙 systemctl disable firewalld

关闭selinux

# 进入文件 vi /etc/selinux/config # 修改配置 SELINUX=disabled

域名映射

# 进入文件 vi /etc/hosts # 新增配置 192.168.11.100 bigdata01 192.168.11.101 bigdata02 192.168.11.102 bigdata03 192.168.11.103 bigdata04

置SSH免密登录

bigdata用户登录，在每个虚拟机执行ssh-keygen命令，一直enter下去，直至id_rsa.pub和id_rsa两个文件生成。
生成后，每个虚拟机执行以下命令发送公钥文件：

ssh-copy-id bigdata01 ssh-copy-id bigdata02 ssh-copy-id bigdata03 ssh-copy-id bigdata04

chmod 700 /home/bigdata chmod 700 /home/bigdata/.ssh chmod 600 /home/bigdata/.ssh/authorized_keys

编译

编译后把生成的文件解压到制定目录，比如我这里是/home/bigdata/apps/hadoop-2.7.7。

配置文件

参考官方
配置之前，我们的规划是这样的,4个节点，3个副本：

节点名称 HDFS YARN bigdata01 NameNode NodeManager bigdata02 DataNode + SecondaryNamenode NodeManager bigdata03 DataNode NodeManager bigdata04 DataNode ResourceManager

hadoop-env.sh

配置Hadoop守护进程环境，路径：etc/hadoop/hadoop-env.sh。

core-site.xml

路径：etc/hadoop/core-site.xml。这个是xml文件，配置在configuration节点下面。

hdfs-site.xml

配置NameNode和DataNode信息，路径：etc/hadoop/hdfs-site.xml。这个是xml文件，配置在configuration节点下面。

yarn-site.xml

配置yarn的ResourceManager和NodeManager信息。路径：etc/hadoop/yarn-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 yarn.resourcemanager.hostname 主节点的位置 bigdata04 yarn.nodemanager.aux-services MapReduce应用需要的shuffle服务 mapreduce_shuffle

/mapred-site.xml

配置MapReduce应用。路径：etc/hadoop/mapred-site.xml。这个是xml文件，配置在configuration节点下面。

参数描述参数值 mapreduce.framework.name 执行框架设置为Hadoop YARN yarn

Slaves文件

配置slave节点，路径：etc/hadoop/slaves。内容如下：

bigdata01 bigdata02 bigdata03 bigdata04

分发各环境

scp -r hadoop-2.7.7 bigdata02 scp -r hadoop-2.7.7 bigdata03 scp -r hadoop-2.7.7 bigdata04

环境变量

每个环境都执行以下命令

# 进入文件 vim ~/.bashrc # 新增配置 export HADOOP_HOME=/home/bigdata/apps/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

运行

集群初始化，执行以下命令，注意仅第一次的时候需要。

# 仅第一次 hadoop namenode -format

启动HDFS集群，可以在任意节点

# 可以在任意节点 start-dfs.sh

启动YARN集群，在YARN节点上执行

# 在YARN节点上执行 start-yarn.sh

启动成功验证：
网址输入http://bigdata01:50070，界面...

输入http://bigdata04:8088，界面如...

集群安装完成。

Hadoop - 集群安装

环境准备

主机命修改

新建账户

关闭防火墙/关闭Selinux

域名映射

置SSH免密登录

编译

配置文件

hadoop-env.sh

core-site.xml

hdfs-site.xml

yarn-site.xml

/mapred-site.xml

Slaves文件

分发各环境

环境变量

运行

大军

0 条评论

大军

宣传栏

目录

环境准备

主机命修改

新建账户

关闭防火墙/关闭Selinux

域名映射

置SSH免密登录

编译

配置文件

hadoop-env.sh

core-site.xml

hdfs-site.xml

yarn-site.xml

/mapred-site.xml

Slaves文件

分发各环境

环境变量

运行

相关推荐