@spiritnotes
2016-02-23T14:49:27.000000Z
字数 1975
阅读 3978
机器学习
读书笔记
该书来源于斯坦福大学的课程(CS345A,Web挖掘)
资料:http://infolab.stanford.edu/~ullman/mining/mining.html
http://www.mmds.org/
目前统计学家认为数据挖掘就是统计模型的构建过程(statistical model),而这个统计模型指的是可见数据所遵循的总体分布。
大部分数据建模使用如下两种方法:
例如:如果考察的时间和范围过广,会很容易发现一些人同住一家酒店,而两者没有什么关系。
集群计算防止故障的办法:
分布式文件系统(DFS,Distributed File System)的典型使用方式:
基于Map-Reduce的计算过程如下:
Map任务的输入文件可以看着由多个元素组成,而元素可以是任意类型。键不要求唯一性,一个Map可以产生多个具有相同键的key-value对,即使来自同一元素。
主控器按照哈希函数用以将key-value序列写到r个本地文件中的一个,每个文件划分给不同的Reduce任务。
所有Reduce任务的输出结果会合并成单个文件。通常Reduce函数满足交换率和结合律。某些时候可以在Map函数中使用Reduce函数进行初步处理。
矩阵乘法 M(n*n)×N(n*1),
Map函数:将V和M的一个文件块作为输入,Map任务产生
Reduce函数:将所有与指定键i相关的值相加
简单方法:多次读V
替代方案:将M划分为多个宽度相等的垂直条,将V划分为同样数目的水平条,Map-Reduce与之前类似
Map函数:对R中的每个元组t,检查其是否满足C,满足则产生(t,t)
Reduce函数:将键-值传递到输出部分
Map函数:对R中的每个元组t,通过剔除t中属性不在S中的字段得到元组t',输出(t',t')
Reduce函数:将存在多余的去掉,(t',[t',t',...])->(t',t')