hadoop2.6.0安装配置

文章内索引
[显示]

 

一台虚拟机,配置信息如下:

hadoop2.6.0安装配置|HADOOP-翰林小院 第1张

内存:1Gcpu:一个core,硬盘:15G

1、修改下主机名为master

sudo vi /etc/sysconfig/network

hadoop2.6.0安装配置|HADOOP-翰林小院 第2张

修改结果后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第3张

重启电脑后再查看结果:

hadoop2.6.0安装配置|HADOOP-翰林小院 第4张

修改主机名成功

2、修改hosts中的主机名:

hadoop2.6.0安装配置|HADOOP-翰林小院 第5张

hadoop2.6.0安装配置|HADOOP-翰林小院 第6张

修改后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第7张

3、配置SSH

hadoop2.6.0安装配置|HADOOP-翰林小院 第8张

进入.ssh目录并生成authorized_keys文件:

hadoop2.6.0安装配置|HADOOP-翰林小院 第9张

授权.ssh/文件夹权限为700authorized_keys文件权限为600(or 644)

hadoop2.6.0安装配置|HADOOP-翰林小院 第10张

ssh验证:

hadoop2.6.0安装配置|HADOOP-翰林小院 第11张

4hadoop安装:

去官网下载hadoop最新安装包:http://apache.fayea.com/hadoop/common/hadoop-2.6.0/

下载并解压后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第12张

修改系统配置文件,修改~/.bash_profile文件,增加HADOPP_HOMEbin文件夹到PATH中,修改后使用source命令使配置文件生效:

hadoop2.6.0安装配置|HADOOP-翰林小院 第13张

hadoop目录下创建文件夹:

hadoop2.6.0安装配置|HADOOP-翰林小院 第14张

接下来开始修改hadoop的配置文件,首先进入hadoop2.6配置文件夹:

hadoop2.6.0安装配置|HADOOP-翰林小院 第15张

第一步修改配置文件hadoop-env.sh,加入“JAVA-HOME”,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第16张

指定我们安装的“JAVA_HOME”

hadoop2.6.0安装配置|HADOOP-翰林小院 第17张

第二步修改配置文件“yarn-env.sh”,加入“JAVA_HOME”,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第18张

指定我们安装的“JAVA_HOME”:

hadoop2.6.0安装配置|HADOOP-翰林小院 第19张

第三步 修改配置文件“mapred-env.sh”,加入“JAVA_HOME”,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第20张

指定我们安装的“JAVA_HOME”

hadoop2.6.0安装配置|HADOOP-翰林小院 第21张

第四步 修改配置文件slaves,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第22张

设置从节点为master,因为我们是伪分布式

hadoop2.6.0安装配置|HADOOP-翰林小院 第23张

第五步 修改配置文件core-site.xml,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第24张

修改core-site.xml文件后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第25张

目前来说,core-site.xml文件的最小化配置,core-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/core-default.xml

第六步 修改配置文件 hdfs-site.xml,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第26张

hdfs-site.xml文件修改后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第27张

上述是hdfs-site.xml文件的最小化配置,hdfs-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

 

第七步 修改配置文件 mapred-site.xml,如下所示:

copy mapred-site.xml.template命名为mapred-site.xml,打开mapred-site.xml,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第28张

mapred-site.xml 修改后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第29张

上述是mapred-site.xml最小化配置,mapred-site.xml各项配置可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

 

第八步 配置文件yarn-site.xml,如下所示:

hadoop2.6.0安装配置|HADOOP-翰林小院 第30张

yarn-site.xml修改后:

hadoop2.6.0安装配置|HADOOP-翰林小院 第31张

上述内容是yarn-site.xml的最小化配置,yarn-site文件配置的各项内容可参考:http://hadoop.apache.org/docs/r2.6.0/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

也可以增加spark_shuffle,配置如下

PS: 当提交hadoop MR 就启用,mapreduce_shuffle,当提交spark作业 就使用spark_shuffle,但个人感觉spark_shuffle 效率一般,shuffle是很大瓶颈,还有 如果你使用spark_shuffle 你需要把spark-yarn_2.10-1.4.1.jar 这个jar copy HADOOP_HOME/share/hadoop/lib ,否则 hadoop 运行报错 class not find exeception

5、启动并验证hadoop伪分布式

第一步:格式化hdfs文件系统:

hadoop2.6.0安装配置|HADOOP-翰林小院 第32张

第二步:进入sbin中启动hdfs,执行如下命令:

hadoop2.6.0安装配置|HADOOP-翰林小院 第33张

此刻我们发现在master上启动了NameNodeDataNodeSecondaryNameNode

此刻通过web控制台查看hdfshttp://master:50070/ hadoop2.6.0安装配置|HADOOP-翰林小院 第34张

hadoop2.6.0安装配置|HADOOP-翰林小院 第35张

hadoop2.6.0安装配置|HADOOP-翰林小院 第36张

点击“Live Nodes”,查看一下其信息:

hadoop2.6.0安装配置|HADOOP-翰林小院 第37张

第三步:启动yarn(单机hbase可不启动)

hadoop2.6.0安装配置|HADOOP-翰林小院 第38张

使用jps命令可以发现master机器启动了ResourceManager进程

 

PS:我们上传一个文件到hdfs吧:

hadoop2.6.0安装配置|HADOOP-翰林小院 第39张

hadoop web控制台页面的端口整理:

50070hdfs文件管理

8088ResourceManager

8042NodeManager

19888JobHistory(使用“mr-jobhistory-daemon.sh”来启动JobHistory Server)

 

你也可以使用命令运行hadoop中wordcount的demo

test文件夹中的文件作为输入,output为输出文件夹

查看HDFS上output目录内容

hadoop2.6.0安装配置|HADOOP-翰林小院 第40张

从上图中知道生成了三个文件,我们的结果在“part-r-00000”中

 


©版权声明:本文为【翰林小院】(huhanlin.com)原创文章,转载时请注明出处!

发表评论

电子邮件地址不会被公开。