@Arslan6and6
2016-05-02T06:05:30.000000Z
字数 1131
阅读 625
第三章、初识Hadoop
2.x
---Hadoop伪分布式环境搭建测试
1、作业描述:
依据上课讲解的【Hadoop 2.x 伪分布式环境搭建测试】步骤,自己在机器中完成,将核心步骤
通过截图软件(比如 QQ 截图)截取图片,粘贴到文档中。以下几点必须在截图中体现:
1) HDFS 配置、启动命令、测试命令
hadoop-env.sh:
hdfs-site.xml:
core-site.xml:
启动命令:
测试命令:
2) YARN 配置、启动命令、WEB UI 页面
yarn-env.sh:
yarn-site.xml:
启动命令:
WEB UI 页面:
3) MapReduce 配置、案例 WordCount 测试运行、如何提交 Job、查看运行结果
mapred-env.sh:
mapred-site.xml:
案例 WordCount 测试运行:
提交任务:
查看运行结果:
4) 根据自己理解的 HDFS、YARN 及 MapReduce 功能进行描述(文字方式,注意排版)
HDFS是文件存储系统,其中Namenode负责该系统的集中统一管理,Datanode接收Namenode文件管理指令,并回传本节点状态信息。HDFS将文件进行分割存储,文件本身分割成至少3个块独立存储在不同Datanode服务器上,并且对每个块在不同Datanode服务器备份。客户端以Namenode服务器为入口提交文件需求,Namenode服务器查找存储在本地的包含文件名、权限、时间的元数据文件得到文件索引,找到并向存储该文件的Datanode发出读取指令,由Datanode直接发送文件信息给客户端。
YARN是一个管理全局cpu、内存、虚拟代码的组件,是任务得以执行的后勤保障。Yarn中有ResourceManager资源管理者和NodeManager任务执行者两个角色。二者中间另外存在一个协调、监控任务的任务主管ApplicationMaster。ResourceManager 负责对各个NodeManager 上的资源进行统一管理和调度。当用户提交一个任务时,ResourceManager将任务交给ApplicationMaster,它负责向ResourceManager 申请资源,并要求NodeManger 启动可以占用一定资源的任务。ResourceManager 将资源信息用Container容器封装后返回ApplicationMaster。当NodeManger得到资源后,ApplicationMaster开始监控NodeManger执行任务,并向NodeManager报告任务执行情况。
MapReduce是一种分布式计算模型,用以解决海量数据的计算问题。对于一个任务Map进行分布计算操作,Reduce数据进行合并。