@Bruce1Tone
2020-04-12T10:35:40.000000Z
字数 810
阅读 487
数据挖掘 机器学习
‘
课程信息
使用工具:
生成和使用数据的模式正在变化
主要任务
其中,分类和聚类是目前的研究重点
| 分类型Categorical | 数值型 |
|---|---|
| 定性的 | 定量的 |
| 标号、序数等 | 区间、比率等 |
只有=、≠和>、<有意义 |
+ - × ÷都有意义 |
| 离散属性Discrete Attribute | 连续属性Continuous Attribute |
|---|---|
| 整数变量、字符串变量 | 实际使用有限位的浮点数表示 |
| 如邮政编码 | 温度、高度等 |
定义:
离散属性的特例,只能取两个值,
0/1、真/假,男/女等
| 对称二元属性 | 非对称二元属性 |
|---|---|
| 两个值相同重要 | 两个值不是相同重要 |
| 性别 | 得分、阴性阳性等,通常重要的值较少出现,用1表示 |
标称变量Nominal variable是二元变量的推广,有多种标准状态,如red yellow blue
相异性度量方法:
对于i,j两组数据,
m为状态相同的变量数目,n为变量总数
列联表/contingency table: