@Arslan6and6
2016-05-02T06:04:30.000000Z
字数 1303
阅读 610
第四章、深入Hadoop
2.x
---HDFS相关概念
1、作业描述:
考核对分布式文件系统 HDFS 的相关重要概念的认识,使用自己理解的语言描述,不要百度谷歌。
概念描述如下:
1) HDFS 中 NameNode 的启动过程,分步骤描述(如果使用画图结合文字更好)。
1、Name启动的时候首先将fsimage(镜像)载入内存,并执行(replay)编辑日志editlog的的各项操作;
2、一旦在内存中建立文件系统元数据映射,则创建一个新的fsimage文件(这个过程不需SecondaryNameNode) 和一个空的editlog;
3、在安全模式下,各个datanode会向namenode发送块列表的最新情况;
4、此刻namenode运行在安全模式。即NameNode的文件系统对于客服端来说是只读的。(显示目录,显示文件内容等。写、删除、重命名都会失败);
5、NameNode开始监听RPC和HTTP请求解释RPC:RPC(Remote Procedure Call Protocol)——远程过程通过协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议;
6、系统中数据块的位置并不是由namenode维护的,而是以块列表形式存储在datanode中;
7、在系统的正常操作期间,namenode会在内存中保留所有块信息的映射信息。
2) HDFS 中 NameNode 元数据本地磁盘存储目录如何配置以及 DataNode 存储数据的本地磁盘目录如何配置(哪里配置,属性名称)。
配置位置/opt/modules/hadoop-2.5.0/etc/Hadoop/core-site.xml
属性名称hadoop.tmp.dir
3) 存储在 HDFS 上的文件,存储机制及数据安全性如何保证。
DataNode在HDFS集群中担任任务具体执行角色,是集群的工作节点。文件被分成若干个相同大小的数据块,分别存储在若干个DataNode上,与存储内容,并根据NameNode发送的指令进行工作
Namenode数据安全性:
Namenode服务器将存储文件名、权限、时间的元数据(fsimage镜像和编辑日志edits_log)元数据存储在本地,Secondary Namenode服务器默认每小时或edits_log超过64M时备份、合并元数据,生成新的fsimage回传给Namenode服务器,用以替换旧fsimage。
DataNode数据安全性:
Namenode将数据文件割后分别存放:文件被Namenode默认分成3个Block块,分别存储在若干个DataNode上。DataNode会定期向集群内NameNode发送自己的运行状态,默认3秒。若NameNode在10分钟内未收到某个DataNode的信息,NameNode会收集该DataNode在其他DataNode存储的文件备份复制到另一个DataNode,并将该未发出信息的DataNode排除在HDFS集群以外,不再使用。
HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到3个相互独立的硬件上,这样可以快速恢复损坏的数据;