@dragonfive 2015-06-06T04:10:59.000000Z 字数 442 阅读 492

Mining of Massive Dataset笔记

数据挖掘

MapReduce解决三个问题

分布式文件系统：谷歌的GFS，Dadoop的HDFS；

文件分块，块有冗余，冗余在不同的堆里面

存放元数据mataData,存储文件在chunk Server上的分布;

一次访问后，直接p2p访问存储文件的那个块服务器，不用访问主节点；

扫描输入的文件 record-at-a-time
找到每条记录中你关注的一些key

把这些key分组重组

对每个key进行计算，使得相同的key只有一个。
Aggeragate聚类,summarize总结,filter过滤 or thransform转换
写出结果