[关闭]
@Bruce1Tone 2020-04-12T10:35:40.000000Z 字数 810 阅读 487

菜鸡的数据挖掘与大数据分析

数据挖掘 机器学习


课程信息

使用工具:


大数据概论

生成和使用数据的模式正在变化

主要任务

其中,分类聚类是目前的研究重点


数据预处理

属性类型

分类型与数值型

分类型Categorical 数值型
定性的 定量的
标号、序数等 区间、比率等
只有=><有意义 + - × ÷都有意义

离散型与连续型

离散属性Discrete Attribute 连续属性Continuous Attribute
整数变量、字符串变量 实际使用有限位的浮点数表示
如邮政编码 温度、高度等

二元属性binary attributes

定义:

离散属性的特例,只能取两个值,0/1//

对称二元属性 非对称二元属性
两个值相同重要 两个值不是相同重要
性别 得分、阴性阳性等,通常重要的值较少出现,用1表示

数据类型

记录数据

图数据Graph

有序数据Ordered

数据的统计描述

中心趋势度量

数据的散布

数据的相似性度量

标称属性数据

标称变量Nominal variable是二元变量的推广,有多种标准状态,如red yellow blue
 相异性度量方法:

对于i,j两组数据,m为状态相同的变量数目,n为变量总数

二元变量属性数据

  1. 首先获取列联表/contingency table
    ctrl + v
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注