@Purpose 2017-03-24T07:43:03.000000Z 字数 1541 阅读 1019

Hadoop伪分布式搭建过程

Hadoop学习笔记

下载安装包

在官网下下载Hadoop的安装包，上传到linux中，然后解压到指定的目录下

mkdir /bigdata
tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata

1.sbin：启动或者停止Hadoop相关服务的脚本
2. bin：对Hadoop的相关服务（HDFS, YARN）进行操作的脚本
3. etc：Hadoop的配置文件目录
4. share：Hadoop的依赖的jar包和文档，文档可以被删
5. lib：Hadoop的本地库（对数据进行压缩和解压缩的功能）

配置Hadoop（伪分布式）

修改5个配置文件
首先进入Hadoop下的etc文件夹

hadoop-env.sh(环境)
修改export JAVA_HOME=${JAVA_HOME}
直接调用系统的JAVA_HOME，有时可能找不到，所以要手动写死
可以用echo $JAVA_HOME来打印出JAVA_HOME的位置
core-site.xml(核心配置文件)
配置写在放在configuration标签中间

<property>
    <!--配置hdfs的namenode（老大）的地址-->
    <name>fs.defaultFS</name> 
    <value>hdfs://hadoop.learn.cn:9000</value> <!--协议,主机名，端口号-->
</property>
<property>
    <!--配置Hadoop运行时产生数据的存储目录（不是临时的数据）-->
    <name>hadoop.tmp.dir</name> 
    <value>/bigdata/tmp</value>
</property>

3.hdfs-site.xml

<property>
    <!--设置HDFS存储数据的副本数量-->
    <name>dfs.replication</name>
    <value>1</value>  <!--在伪分布式中，一份就可以了，真正的分布式一般存3份-->
</property>

4.mapred-site.xml.template
先把文件重命名为mapred-site.xml
然后再对它进行编辑

<property>
    <!--指定mapreduce编程模型运行在yarn上-->
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

5.yarn-site.xml

<property>
    <!--指定yarn老大（resourcemanager的地址）-->
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop.learn.cn</value>
</property>
<property>
    <!--mapreduce执行shuffle时获取数据的方式-->
    <name>yarn.nodemanager.hostname</name>
    <value>mapreduce_shuffle</value>
</property>

初始化HDFS（格式化）

cd /bigdata/hadoop-2.6.5/bin/
./hdfs namenode -format

可以用jps查看java进程的状态

启动并测试Hadoop

cd /bigdata/hadoop-2.6.5/sbin
start-dfs.sh
start-yarn.sh

用jps查看进程是否存在

访问50070端口查看hdfs的管理界面
访问8088端口查看yarn的管理界面

SSH免密码登录的配置

ssh-keygen -t rsa      //生成公钥和密钥
ssh-copy-id localhost //和本地机连接