构建大数据平台

2017-11-22 07:51

网络安全和信息化 2017年4期

系统安装

1.搭建平台所用环境

硬件：华为8路服务器，256GB内存，8×e8850 CPU，30TB存储。

软件：VMware 6.0，配置11台虚拟机，每台安装64位CentOS6.5，Hadoop 版本为2.7.3，安装完一台机器，通过克隆虚拟机方式可以很快把所有机器安装完成，达到快速部署的目的。其中hut-hadoop-master为主节点（Master），IP信息为172.16.54.11/24，网关为 172.16.54.1，huthadoop-node01_08及为hut-hadoop-web为从节点（Slave），IP 地址为172.16.54.12-172.16.54.20。安装时，每台机器都没有安装图形界面，通过SecureCRT进行管理。

2.配置SSH免密码登录

由于Hadoop需要通过SSH登录到各个节点进行操作，为方便起见，用root用户，每台服务器都生成公钥，再合并到authorized_keys。

（1）CentOS默认没有启动SSH无密登录，需要去掉每台服务器中/etc/ssh/sshd_config中如下所示的2行的注释：#RSAAuthentication yes,#PubkeyAuthenti cation yes。

（2）每台服务器上都输入命令：ssh-keygen -t rsa，生成 key，都不输入密码，一直回车，/root目录下会生成.ssh文件夹。

（3）合并公钥到authorized_keys文件：在hut-hadoop-master（172.16.54.11）服务器上进入/root/.ssh目录，通过如下命令进行合并，主要是SSH命令：

cat id_rsa.pub>>authorized_keys

ssh root@172.16.54 .12 cat ~/.ssh/id_rsa.pub>>authorized_keys，其他机器照此格式。

（4）把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录。

（5）完成，s s h root@172.16.54.12、...、ssh root@172.16.54.19就不需要输入密码了。

3.安装JDK

Hadoop2.7.3需要JDK7，安装CentOS可自定义安装，如果没有OpenJDK，直接解压下载的JDK并配置变量即可

（1）下载“jdk-7u79-linux-x64.gz”，放到 /home/java目录下。

（2）解压，输入命令，tar -zxvf jdk-7u79-linux-x64.gz。

（3）编辑/e t c/profile：

export JAVA_HOME=/home/java/jdk1.7.0_79

export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

（4）要使配置生效，输入命令：source /etc/profile即可。

（5）输入命令，java-version，完成。

4.安装Hadoop2.7.3

只在Master（172.16.54.11）服务器解压，再复制到Slave（172.16.54.12-19）服务器：

（1）下载“hadoop-2.7.3.tar.gz”，放到 /usr目录下。

（2）解压命令:

tar -xzvf hadoop-2.7.3.tar.gz。

（3）在 /usr/hadoop 目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name。

系统配置

1.依次配置/usr/hadoop-2.7.3/etc/hadoop目录下的core-site.xml、hdfs-site.xml、mapredsite.xml、yarn-site.xml（注：因以上配置文件内容太长，具体内容通过10274759@qq.com索取）。

图1 JPS命令显示的信息

图2 任务执行状态

2.配置/u s r/hadoop-2.7.3/etc/hadoop目录下 hadoop-env.sh、yarnenv.sh 的JAVA_HOME，如果不设置就启动不了。内容为：

export JAVA_HOME=/home/java/jdk1.7.0_79。

3.配置/e t c/hadoop-2.7.3/etc/hadoop目录下的slaves，删除默认的localhost，增加9个从节点：172.16.54.12-172.16.54.19共9个IP地址。

4.将配置好的Hadoop复制到各个节点对应位置上，通过scp传送，scp -r /usr/hadoop 172.16.54.12:/usr/,其他机器照此配置。

系统启动与测试

1．在Master服务器（172.16.54.11）启动Hadoop，从节点会自动启动，在 /usr/hadoop-2.7.3下操作：

（1）初始化，输入命令：bin/hdfs namenode-format

（2）全部启动：sbin/start-all.sh，也可输入sbin/start-dfs.sh、sbin/start-yarn.sh。

（3）停止的命令为：sbin/stop-all.sh。

（4）输入命令：jps，可以看到相关信息（如图1）。

2.Web访问，要先开放端口或者直接关闭防火墙，状态信息如图2所示。

（1）在服务器控制台输入命令：systemctl stop firewalld.service或者iptables –F。

（2）用浏览器打开http://172.16.54.11:8088/查看任务执行状态。

（3）浏览器打开http://172.16.54.11:50070/查看系统概况。

3.安装完成只是大数据应用的开始，之后的工作就是，结合自己的情况，编写程序调用Hadoop的接口，发挥 hdfs、mapreduce的作用。另外，也可以用Hadoop下的例程做测试。

注意事项

要成功安装并运行，下面几点事项需要注意。

1.务必安装好JDK，并在环境变量中设置好。

2.网卡最好启用一个，本例中最初设置了两个网卡，导致很多问题，不仅是路由方面的，并禁用IPv6，关闭防火墙。

3.Slave文件务必设置好。

4.yarn-site.xml文件中内存至少2048MB以上，务必配置好最小参数、内存参数、虚拟内存参数，否则很多任务执行不了，停在running状态。

5.格式化Hadoop系统务必删除掉tmp文件夹根目录及相关目录下的tmp文件夹，然后重建，否则，datanode不能启动。

6.如果不能从本地上传文件至Hadoop系统，也可能与防火墙有关，关闭防火墙即可。