[关闭]
@Purpose 2017-03-24T07:43:03.000000Z 字数 1541 阅读 1019

Hadoop伪分布式搭建过程

Hadoop学习笔记


下载安装包

在官网下下载Hadoop的安装包,上传到linux中,然后解压到指定的目录下

  1. mkdir /bigdata
  2. tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata

安装包目录下有几个比较重要的目录

1.sbin:启动或者停止Hadoop相关服务的脚本
2. bin:对Hadoop的相关服务(HDFS, YARN)进行操作的脚本
3. etc:Hadoop的配置文件目录
4. share:Hadoop的依赖的jar包和文档,文档可以被删
5. lib:Hadoop的本地库(对数据进行压缩和解压缩的功能)


配置Hadoop(伪分布式)

修改5个配置文件
首先进入Hadoop下的etc文件夹

  1. hadoop-env.sh(环境)
    修改export JAVA_HOME=${JAVA_HOME}
    直接调用系统的JAVA_HOME,有时可能找不到,所以要手动写死
    可以用echo $JAVA_HOME来打印出JAVA_HOME的位置

  2. core-site.xml(核心配置文件)
    配置写在放在configuration标签中间

  1. <property>
  2. <!--配置hdfs的namenode(老大)的地址-->
  3. <name>fs.defaultFS</name>
  4. <value>hdfs://hadoop.learn.cn:9000</value> <!--协议,主机名,端口号-->
  5. </property>
  6. <property>
  7. <!--配置Hadoop运行时产生数据的存储目录(不是临时的数据)-->
  8. <name>hadoop.tmp.dir</name>
  9. <value>/bigdata/tmp</value>
  10. </property>

3.hdfs-site.xml

  1. <property>
  2. <!--设置HDFS存储数据的副本数量-->
  3. <name>dfs.replication</name>
  4. <value>1</value> <!--在伪分布式中,一份就可以了,真正的分布式一般存3份-->
  5. </property>

4.mapred-site.xml.template
先把文件重命名为mapred-site.xml
然后再对它进行编辑

  1. <property>
  2. <!--指定mapreduce编程模型运行在yarn上-->
  3. <name>mapreduce.framework.name</name>
  4. <value>yarn</value>
  5. </property>

5.yarn-site.xml

  1. <property>
  2. <!--指定yarn老大(resourcemanager的地址)-->
  3. <name>yarn.resourcemanager.hostname</name>
  4. <value>hadoop.learn.cn</value>
  5. </property>
  6. <property>
  7. <!--mapreduce执行shuffle时获取数据的方式-->
  8. <name>yarn.nodemanager.hostname</name>
  9. <value>mapreduce_shuffle</value>
  10. </property>

初始化HDFS(格式化)

  1. cd /bigdata/hadoop-2.6.5/bin/
  2. ./hdfs namenode -format

可以用jps查看java进程的状态


启动并测试Hadoop

  1. cd /bigdata/hadoop-2.6.5/sbin
  2. start-dfs.sh
  3. start-yarn.sh

用jps查看进程是否存在

访问50070端口查看hdfs的管理界面
访问8088端口查看yarn的管理界面


SSH免密码登录的配置

  1. ssh-keygen -t rsa //生成公钥和密钥
  2. ssh-copy-id localhost //和本地机连接
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注