[关闭]
@K1999 2016-10-17T08:59:23.000000Z 字数 1394 阅读 1293

关联规则分析

机器学习


关联规则用于揭示事物之间的关系。

一、基本概念

1. 支持度

支持度表示项集{X,Y}在总项集里出现的概率。公式为:

其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 num(I)表示总事务集的个数,num(X∪Y)表示含有{X,Y}的事务集的个数(个数也叫次数)。
通俗解释:简单地说, 的支持度就是指物品集A和物品集B同时出现的概率。
其中,(条件)(结果)则
的条件支持度
的结果支持度(结果支持度又叫做期望置信度)

2. 置信度

置信度又叫可信度,表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:

通俗解释:简单地说,的可信度就是指在出现了物品集A的事务T中,物品集B也同时出现的概率有多大。

3. 提升度

提升度是置信度与期望置信度的比值。

通俗解释:提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。

例:在分析的1000个用户的购物记录中,有600个购买了游戏光盘、750个购买了鼠标,有400个是同时购买了游戏光盘和鼠标。
(购买游戏光盘)(购买鼠标)


置信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
上例中,支持度看似挺高,其实是假象,用户购买了电子游戏后有66.7%购买了鼠标,但是用户本身不加任何约束的购买鼠标的概率是75%,也就是说设置了购买游戏的前提下,反而会降低用户去购买鼠标的概率,这一点可以从提升度上面看出来。
如果提升度的值=1,说明两个条件没有任何关联;
如果<1,说明A条件(或者说A事件的发生)与B事件是相斥的; 一般在数据挖掘中当提升度大于3时,我们才承认挖掘出的关联规则是有价值的。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注