硬件:华为8路服务器,256GB内 存,8×e8850 CPU,30TB存储。
软 件 :VMware 6.0, 配 置11台虚拟机,每台安装64位CentOS6.5,Hadoop 版 本为2.7.3,安装完一台机器,通过克隆虚拟机方式可以很快把所有机器安装完成,达到快速部署的目的。其中hut-hadoop-master为主 节 点(Master),IP信 息为172.16.54.11/24,网关 为 172.16.54.1,huthadoop-node01_08及为hut-hadoop-web为从 节 点(Slave),IP 地址 为172.16.54.12-172.16.54.20。安装时,每台机器都没有安装图形界面,通过SecureCRT进行管理。
由于Hadoop需要通过SSH登录到各个节点进行操作,为方便起见,用root用户,每台服务器都生成公钥,再合并到authorized_keys。
(1)CentOS默认没有启动SSH无密登录,需要去掉每台服务器中/etc/ssh/sshd_config中如下所示的2行的注 释 :#RSAAuthentication yes,#PubkeyAuthenti cation yes。
(2)每台服务器上都输入命令:ssh-keygen -t rsa,生成 key,都不输入密码,一直回车,/root目录下会生成.ssh文件夹。
(3) 合 并 公 钥 到authorized_keys文 件:在hut-hadoop-master(172.16.54.11)服务器上进入/root/.ssh目录,通过如下命令进行合并,主要是SSH命令:
cat id_rsa.pub>>authorized_keys
ssh root@172.16.54 .12 cat ~/.ssh/id_rsa.pub>>authorized_keys,其他机器照此格式。
(4)把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录。
(5)完成,s s h root@172.16.54.12、...、ssh root@172.16.54.19就不需要输入密码了。
Hadoop2.7.3需要JDK7,安装CentOS可自定义安装,如果没有OpenJDK,直接解压下载的JDK并配置变量即可
(1)下载“jdk-7u79-linux-x64.gz”,放到 /home/java目录下。
(2)解压,输入命令,tar -zxvf jdk-7u79-linux-x64.gz。
(3)编辑/e t c/profile:
export JAVA_HOME=/home/java/jdk1.7.0_79
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
(4)要使配置生效,输入命令:source /etc/profile即可。
(5)输入命令,java-version,完成。
只 在Master(172.16.54.11) 服 务 器解压,再复制到Slave(172.16.54.12-19)服务器:
(1)下载“hadoop-2.7.3.tar.gz”,放 到 /usr目录下。
(2)解压命令:
tar -xzvf hadoop-2.7.3.tar.gz。
(3)在 /usr/hadoop 目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name。
1.依次配置/usr/hadoop-2.7.3/etc/hadoop目录下的core-site.xml、hdfs-site.xml、mapredsite.xml、yarn-site.xml(注:因以上配置文件内容太长,具体内容通过10274759@qq.com索取)。
图1 JPS命令显示的信息
图2 任务执行状态
2.配 置/u s r/hadoop-2.7.3/etc/hadoop目录 下 hadoop-env.sh、yarnenv.sh 的JAVA_HOME,如果不设置就启动不了。内容为:
export JAVA_HOME=/home/java/jdk1.7.0_79。
3.配 置/e t c/hadoop-2.7.3/etc/hadoop目录下的slaves,删除默认的localhost,增加9个从节点:172.16.54.12-172.16.54.19共9个IP地址。
4.将配置好的Hadoop复制到各个节点对应位置 上,通 过scp传 送,scp -r /usr/hadoop 172.16.54.12:/usr/,其他机器照此配置。
1.在Master服务器(172.16.54.11) 启动Hadoop,从 节 点 会自 动 启 动,在 /usr/hadoop-2.7.3下操作:
(1)初始化,输入命令:bin/hdfs namenode-format
(2)全 部 启 动 :sbin/start-all.sh,也 可 输 入sbin/start-dfs.sh、sbin/start-yarn.sh。
(3)停止的命令为:sbin/stop-all.sh。
(4)输入命令 :jps,可以看到相关信息(如图1)。
2.Web访问,要先开放端口或者直接关闭防火墙,状态信息如图2所示。
(1)在服务器控制台输入 命 令:systemctl stop firewalld.service或 者iptables –F。
(2)用浏览器打开http://172.16.54.11:8088/查看任务执行状态。
(3) 浏 览 器 打 开http://172.16.54.11:50070/查看系统概况。
3.安装完成只是大数据应用的开始,之后的工作就是,结合自己的情况,编写程序调用Hadoop的接口,发挥 hdfs、mapreduce的作用。另外,也可以用Hadoop下的例程做测试。
要成功安装并运行,下面几点事项需要注意。
1.务必安装好JDK,并在环境变量中设置好。
2.网卡最好启用一个,本例中最初设置了两个网卡,导致很多问题,不仅是路由方面的,并禁用IPv6,关闭防火墙。
3.Slave文件务必设置好。
4.yarn-site.xml文件中内存至少2048MB以上,务必配置好最小参数、内存参数、虚拟内存参数,否则很多任务执行不了,停在running状态。
5.格式化Hadoop系统务必删除掉tmp文件夹根目录及相关目录下的tmp文件夹,然后重建,否则,datanode不能启动。
6.如果不能从本地上传文件至Hadoop系统,也可能与防火墙有关,关闭防火墙即可。