[关闭]
@awsekfozc 2016-01-08T11:05:45.000000Z 字数 657 阅读 1242

hadoop2.x理解

Hadoop


HDFS

hadoop分布式文件系统。
1. HDFS具有高容错性,以副本机制来保证。相同的书数据在不同的dataNode上都有。一份损坏或者丢失,并不影响数据的完整性。
通过配置副本数,HDFS会始终保持副本数量。
2. 因为HDFS是分布式的,能提供高吞吐量的数据访问,对大数据的存储很有用。


YARN

hadoop的资源管理者。对集群的cpu,内存进行管理。
1. ResourceManager:客户端向ResourceManager请求执行程序,ResourceManager查看各个NodeManager的情况,根据(计算、内存、带宽等)只能的给NodeManager,形成Container。
2. ResourceManager 准备好资源后,启动一个 ApplicationMaster 来表示已提交的应用程序。通过使用一个资源请求协议,ApplicationMaster 协商每个节点上供应用程序使用的资源容器。执行应用程序时,ApplicationMaster 监视容器直到完成。当应用程序完成时,ApplicationMaster 从 ResourceManager 注销其容器,执行周期就完成了


MapReduce

input --> map --> shuffle --> reduce --> out

  1. input输入要分析的数据
  2. map对处理数据
  3. shuffle 打乱数据(具体处理方式不是很清楚。。。。)
  4. reduce对数据合并
  5. out输出处理好的数据

在此输入正文

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注