[关闭]
@Purpose 2017-04-16T05:16:46.000000Z 字数 722 阅读 1153

HDFS的介绍使用

Hadoop学习笔记


分布式文件系统的介绍

  1. 什么是分布式文件系统
    分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源通过计算机网络与节点相连接,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色,可以将文件分布式存放在多台服务器上
  2. 分布式文件系统的特点
    • 可拓展
    • 容错
    • 高可用性
    • 高吞吐
  3. 怎么设计一个分布式文件系统
    老大Master

    • 负责管理小弟,客户端Client经过Master来获取小弟的地址,从而建立与小弟们的通信,完成上传,而它自己则记录下存放数据的位置信息
    • 存储着元数据(描述性的数据),客户端根据元数据从而和小弟建立通信,得以访问真正的文件数据
    • 监控小弟们的状况,如果有小弟挂了,就及时安排别的小弟去分担它的工作,以免系统瘫痪

    小弟Slave

    • 负责文件的真正的存储
    • 定时向老大发送信息(心跳Heartbeat),使得老大能根据小弟们的情况作出不同的安排处理
    • 如果老大挂了,他们会自动寻找备用的老大(standby),这时由这位老大来管理小弟

通过50070端口访问本地的hadoop集群的时候,要注意主机名和IP地址的问题

windows下如果没配置好IP的映射关系的话,是无法通过浏览器直接下载,因为下载链接是用你linux系统的主机名作为域名,windows系统中没有这个主机名和IP地址的映射关系的话,那么浏览器就会在外网中寻找这个域名,这个结果当然是找不到的了,所以我们可以通过配置windowes的hosts文件来解决


HDFS架构

(重点概念: 文件切块,副本存放,元数据)


HDFS的重要组件

NameNode
DateNode
SecondaryNameNode(在伪分布和非高可用的集群上才有)
HDFS工作示意图

元数据

元数据部分信息存储示意图

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注