@Purpose
2017-03-24T07:43:03.000000Z
字数 1541
阅读 1019
Hadoop学习笔记
在官网下下载Hadoop的安装包,上传到linux中,然后解压到指定的目录下
mkdir /bigdatatar -zxvf hadoop-2.6.5.tar.gz -C /bigdata
安装包目录下有几个比较重要的目录
1.sbin:启动或者停止Hadoop相关服务的脚本
2. bin:对Hadoop的相关服务(HDFS, YARN)进行操作的脚本
3. etc:Hadoop的配置文件目录
4. share:Hadoop的依赖的jar包和文档,文档可以被删
5. lib:Hadoop的本地库(对数据进行压缩和解压缩的功能)
修改5个配置文件
首先进入Hadoop下的etc文件夹
hadoop-env.sh(环境)
修改export JAVA_HOME=${JAVA_HOME}
直接调用系统的JAVA_HOME,有时可能找不到,所以要手动写死
可以用echo $JAVA_HOME来打印出JAVA_HOME的位置
core-site.xml(核心配置文件)
配置写在放在configuration标签中间
<property><!--配置hdfs的namenode(老大)的地址--><name>fs.defaultFS</name><value>hdfs://hadoop.learn.cn:9000</value> <!--协议,主机名,端口号--></property><property><!--配置Hadoop运行时产生数据的存储目录(不是临时的数据)--><name>hadoop.tmp.dir</name><value>/bigdata/tmp</value></property>
3.hdfs-site.xml
<property><!--设置HDFS存储数据的副本数量--><name>dfs.replication</name><value>1</value> <!--在伪分布式中,一份就可以了,真正的分布式一般存3份--></property>
4.mapred-site.xml.template
先把文件重命名为mapred-site.xml
然后再对它进行编辑
<property><!--指定mapreduce编程模型运行在yarn上--><name>mapreduce.framework.name</name><value>yarn</value></property>
5.yarn-site.xml
<property><!--指定yarn老大(resourcemanager的地址)--><name>yarn.resourcemanager.hostname</name><value>hadoop.learn.cn</value></property><property><!--mapreduce执行shuffle时获取数据的方式--><name>yarn.nodemanager.hostname</name><value>mapreduce_shuffle</value></property>
cd /bigdata/hadoop-2.6.5/bin/./hdfs namenode -format
可以用jps查看java进程的状态
cd /bigdata/hadoop-2.6.5/sbinstart-dfs.shstart-yarn.sh
用jps查看进程是否存在
访问50070端口查看hdfs的管理界面
访问8088端口查看yarn的管理界面
ssh-keygen -t rsa //生成公钥和密钥ssh-copy-id localhost //和本地机连接