@zhengyuhong 2014-10-01T08:22:28.000000Z 字数 1642 阅读 1561

数据挖掘导论

读书笔记 数据挖掘

　　再一次看这书是为了准备数据挖掘的面试，主要是总结一下常考的算法知识点

第二章、数据

2.1、维灾难与主成分分析

　　维灾难：随着数据维数增加，许多数据分析变得困难，维数越高越稀疏，数据在它所占的空间中越来越稀疏，对于分类，这可能意味没有足够的数据对象来创建模型，将所有可能的对象可靠地指派到一个类中。对于聚类，点之间的密度与距离的定义（对聚类是至关重要的）失去了意义，结果是分类的准确度降低，聚类效果下降。
　　维归约技术，线性代数技术，将数据由高维空间映射到地位空间，特别是连续数据。主成分分析（PCA）是一种用于连续属性的线性代数技术，找出新的属性（主成分），这些属性是原属性的线性组合，是相互正交的线性组合。奇异值矩阵分解SVD是一种线性代数技术，它与PCA有关，也可以用于维归约。

2.2、降维

　　特征子集的选择，降低维度的另一个方法是仅使用特征的一个子集。尽管看起来这个方法好像丢失信息，但是由于存在冗余或者不相关的特征时，这个降维技术是高效的。
　　特征加权，另一个保留或者删除特征的办法，特征越重要，所赋予的权值越大，譬如支持向量机、logistic regression、线性回归

2.3、相异度与相似度

　　数据对象之间的相异度：欧氏距离、汉明距离、马氏距离还有集合差
　　数据对象之间的相似度：SMC（简单匹配系数，0-0计算在内）、Jaccard系数（0-0不计算在内,因为0-0并不是相关的意思，只是表示是其他情况，但是其他情况当中还是有很多组合的）、余弦相似度还有相关系数 $\frac{covariance(x,y)}{\sigma(x)*\sigma(y)}$

第三章、探索数据

汇总统计，频率、众数、百分位数
位置度量，均值、中位数
散布度量，极差、方差

第四章、分类：基本概念、决策树与模型评估

　　分类任务就是确定对象属于哪一个预定义的目标类。
　　分类方法：决策树、神经网络、支持向量机、朴素贝叶斯、logistic regression，k近邻与AdaBoost

4.1、决策树

决策树归纳是一种非参数方法，就是不需要任何假设，不需要假设服从某概率分布
决策树容易解释
冗余性不会对决策树的准确性有不利影响
决策树有过度拟合的问题

第五章、分类：其他技术

5.1、k近邻分类器

　　如果k太小，则最近邻分类器容易受到由于训练数据中的噪声而产生过分拟合的影响；如果k太大，最近邻分类器可能会误分类测试样例，因为最近邻列表中可能包含了远离其近邻的数据点
　　k近邻特点

决策树有过度拟合的问题最近邻分类器不需要建模，然后分类开销大
最近邻基于局部信息进行预测，对噪声敏感

5.2、贝叶斯分类器

　　特点：

对连续特征支持不好，需要把连续特征离散化
面对孤立的噪声点，朴素贝叶斯分类器是简装的，因为在计算条件概率是，噪声点会被平均。
而属性的相关性（冗余性）会影响朴素贝叶斯分配器的性能，因为不能再满足条件独立性的假设。

5.3、神经网络

　　特点：

神经网络可以处理冗余特征，自动学习过程中，冗余特征的权值很小
对训练中的噪声敏感
经常使用梯度下降求的局部最优值

5.4、支持向量机

　　支持向量机的特征：

SVM可以转化为凸优化问题
SVM针对的是二元分类问题

第八章、聚类分析：基本概念和算法

8.1、K均值

衡量标准误差的平方和

8.2、凝聚层次聚类

　　有两种方法产生层次聚类的基本方法，自顶向下、自底向上

分裂：从包含所有点的某一个簇开始，每一个分裂一个簇，知道剩下单点簇
凝聚：从点作为个体簇出发，每一个合并两个最接近的簇，这里需要定义簇的邻近性
邻近性：
MIN，两个簇中最接近的两个点的距离作为簇之间的距离
MAX，两个簇中最远离的两个点的距离作为簇之间的距离
组平均，两个簇所有点的距离的平均值

第十章、异常检测

异常检测方法：

基于模型的方法，譬如建立一个分布模型，对象就不太拟合分布就可能是异常点
基于临近度的技术，找出离群点

类标号的使用：
监督的异常检测，有异常类，有正常类的训练集，转化为分类模型
同理半监督、非监督异常检测方法