@dragonfive
2015-06-06T04:10:59.000000Z
字数 442
阅读 492
数据挖掘
| 问题 | 解决方案 |
|---|---|
| 分布式结点易出错 | 设置数据冗余备份 |
| 网络瓶颈 | 在数据源附近运算 |
| 分布式运算比较复杂 | 建立简单的编程模型 |
分布式文件系统:谷歌的GFS,Dadoop的HDFS;
文件分块,块有冗余,冗余在不同的堆里面
存放元数据mataData,存储文件在chunk Server上的分布;
一次访问后,直接p2p访问存储文件的那个块服务器,不用访问主节点;
扫描输入的文件 record-at-a-time
找到每条记录中你关注的一些key
把这些key分组重组
对每个key进行计算,使得相同的key只有一个。
Aggeragate聚类,summarize总结,filter过滤 or thransform转换
写出结果