[关闭]
@Arslan6and6 2016-05-02T06:05:30.000000Z 字数 1131 阅读 625

【作业一】殷杰

第三章、初识Hadoop 2.x

---Hadoop伪分布式环境搭建测试
1、作业描述:
依据上课讲解的【Hadoop 2.x 伪分布式环境搭建测试】步骤,自己在机器中完成,将核心步骤
通过截图软件(比如 QQ 截图)截取图片,粘贴到文档中。以下几点必须在截图中体现:
1) HDFS 配置、启动命令、测试命令
hadoop-env.sh:
1.png-6.2kB

hdfs-site.xml:
2.png-38.5kB

core-site.xml:
3.png-22.8kB

启动命令:
4.png-33.8kB

测试命令:
5.png-13.5kB
6.png-22.7kB
7.png-24.6kB

2) YARN 配置、启动命令、WEB UI 页面
yarn-env.sh:
8.png-4.4kB

yarn-site.xml:
9.png-37.9kB

启动命令:
10.png-37.1kB

WEB UI 页面:
11.png-89.3kB

3) MapReduce 配置、案例 WordCount 测试运行、如何提交 Job、查看运行结果
mapred-env.sh:
12.png-4.2kB

mapred-site.xml:
13.png-22.3kB

案例 WordCount 测试运行:
16.png-46.8kB

提交任务:
14.png-26.7kB

查看运行结果:
15.png-34.1kB

4) 根据自己理解的 HDFS、YARN 及 MapReduce 功能进行描述(文字方式,注意排版)

    HDFS是文件存储系统,其中Namenode负责该系统的集中统一管理,Datanode接收Namenode文件管理指令,并回传本节点状态信息。HDFS将文件进行分割存储,文件本身分割成至少3个块独立存储在不同Datanode服务器上,并且对每个块在不同Datanode服务器备份。客户端以Namenode服务器为入口提交文件需求,Namenode服务器查找存储在本地的包含文件名、权限、时间的元数据文件得到文件索引,找到并向存储该文件的Datanode发出读取指令,由Datanode直接发送文件信息给客户端。
    YARN是一个管理全局cpu、内存、虚拟代码的组件,是任务得以执行的后勤保障。Yarn中有ResourceManager资源管理者和NodeManager任务执行者两个角色。二者中间另外存在一个协调、监控任务的任务主管ApplicationMaster。ResourceManager 负责对各个NodeManager 上的资源进行统一管理和调度。当用户提交一个任务时,ResourceManager将任务交给ApplicationMaster,它负责向ResourceManager 申请资源,并要求NodeManger 启动可以占用一定资源的任务。ResourceManager 将资源信息用Container容器封装后返回ApplicationMaster。当NodeManger得到资源后,ApplicationMaster开始监控NodeManger执行任务,并向NodeManager报告任务执行情况。
    MapReduce是一种分布式计算模型,用以解决海量数据的计算问题。对于一个任务Map进行分布计算操作,Reduce数据进行合并。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注