[关闭]
@dragonfive 2015-06-06T04:10:59.000000Z 字数 442 阅读 492

Mining of Massive Dataset笔记

数据挖掘


MapReduce解决三个问题

问题 解决方案
分布式结点易出错 设置数据冗余备份
网络瓶颈 在数据源附近运算
分布式运算比较复杂 建立简单的编程模型

冗余存储结构

分布式文件系统:谷歌的GFS,Dadoop的HDFS;

块服务器chunk Server

文件分块,块有冗余,冗余在不同的堆里面

主结点 master node

存放元数据mataData,存储文件在chunk Server上的分布;

客户端数据库用来数据访问 client database

一次访问后,直接p2p访问存储文件的那个块服务器,不用访问主节点;

MapReduce的做事步骤

Map function

扫描输入的文件 record-at-a-time
找到每条记录中你关注的一些key

Group by key

把这些key分组重组

reduce function

对每个key进行计算,使得相同的key只有一个。
Aggeragate聚类,summarize总结,filter过滤 or thransform转换
写出结果

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注