@zhengyuhong
2014-10-01T08:22:28.000000Z
字数 1642
阅读 1481
读书笔记 数据挖掘
再一次看这书是为了准备数据挖掘的面试,主要是总结一下常考的算法知识点
维灾难:随着数据维数增加,许多数据分析变得困难,维数越高越稀疏,数据在它所占的空间中越来越稀疏,对于分类,这可能意味没有足够的数据对象来创建模型,将所有可能的对象可靠地指派到一个类中。对于聚类,点之间的密度与距离的定义(对聚类是至关重要的)失去了意义,结果是分类的准确度降低,聚类效果下降。
维归约技术,线性代数技术,将数据由高维空间映射到地位空间,特别是连续数据。主成分分析(PCA)是一种用于连续属性的线性代数技术,找出新的属性(主成分),这些属性是原属性的线性组合,是相互正交的线性组合。奇异值矩阵分解SVD是一种线性代数技术,它与PCA有关,也可以用于维归约。
特征子集的选择,降低维度的另一个方法是仅使用特征的一个子集。尽管看起来这个方法好像丢失信息,但是由于存在冗余或者不相关的特征时,这个降维技术是高效的。
特征加权,另一个保留或者删除特征的办法,特征越重要,所赋予的权值越大,譬如支持向量机、logistic regression、线性回归
数据对象之间的相异度:欧氏距离、汉明距离、马氏距离还有集合差
数据对象之间的相似度:SMC(简单匹配系数,0-0计算在内)、Jaccard系数(0-0不计算在内,因为0-0并不是相关的意思,只是表示是其他情况,但是其他情况当中还是有很多组合的)、余弦相似度还有相关系数
汇总统计,频率、众数、百分位数
位置度量,均值、中位数
散布度量,极差、方差
分类任务就是确定对象属于哪一个预定义的目标类。
分类方法:决策树、神经网络、支持向量机、朴素贝叶斯、logistic regression,k近邻与AdaBoost
决策树有过度拟合的问题
如果k太小,则最近邻分类器容易受到由于训练数据中的噪声而产生过分拟合的影响;如果k太大,最近邻分类器可能会误分类测试样例,因为最近邻列表中可能包含了远离其近邻的数据点
k近邻特点
特点:
特点:
支持向量机的特征:
衡量标准误差的平方和
有两种方法产生层次聚类的基本方法,自顶向下、自底向上
异常检测方法:
类标号的使用:
监督的异常检测,有异常类,有正常类的训练集,转化为分类模型
同理半监督、非监督异常检测方法
