您的位置:首页 > 其它

挖掘频繁模式、关联和相关性:基本概念和方法

2017-04-05 20:51 260 查看

基本概念

频繁模式:

频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。

例如:频繁地同时出现在交易数据集中的商品(如香皂和洗衣液)的集合是频繁项集。

序号交易号香皂(a)洗发露(b)洗衣液(c)牙膏(d)简化表示
1081201香皂洗发露洗衣夜a, b, c
2081202香皂洗衣夜牙膏a, c, d
3081203香皂洗发露a, b,
4081204洗发露洗衣夜牙膏b, c, d
5081205香皂洗发露洗衣夜牙膏a, b, c, d
6081206香皂洗发露洗衣夜牙膏a, b, c, d
7081207洗发露牙膏b, d
8081208香皂牙膏a, b, c, d
9081209香皂洗发露a, d
10081210香皂洗发露牙膏a, b, d

关联规则:

关联规则就是描述数据事务属性项目之间的关联。

表示成X=>Y(s%, c%)。

其中s%为支持度,即X和Y同时出现的概率,c%为置信度,即在X出现的情况下,Y也出现的概率。

举例:上表中可以知道:有6个事务中买香皂就一定买了洗发露;如第1,3,5,6,9和10条。这个概率为6/10=60%。

在买香皂的前提下(即有8个,1,2,3,5,6,8,9,10),又买洗发露的个数为6个,这个概率为6/7=85%。

那么写“买香皂就一定买了洗发露”的关联规则表示成:a=>b。此时的支持度为60%,置信度为85%。

支持度:

支持度就是指定的项目组合集,在数据库中包含这个项目集的事务数占总数的比例。

项目集就是项目属性的任意组合,如表所示,这里有4个项目属性a,b,c,d,则可能有4^2即16种情况,全部没有除外就只有15种情况。

假设项目集为{a},也就是买香皂的交易有:1,2,3,5,6,8,9,10,也就是有8个交易中有香皂,所以项目集为{a}的支持数为8,支持度为80%。

假设项目集为{a,b},也就是同时买香皂和洗发露的交易有:1,3,5,6,9,10也就是有6个交易中同时有香皂和洗发露,所以项目集为{a,b}的支持数为6,支持度为60%。

置信度:

置信度是在X出现的情况下,Y也出现的概率。计算公式为:X和Y的支持数/X的支持数。

规则:{a,b}=>{c}(30%, 50%), {a,b,c}的支持数为3个,{a,b}的支持数为6个,规则置信度为50%。

频繁项目集:

频繁项目集就是指项目集的支持度大于人们指定的支持度。

举例:项目集为{a,b}的支持数为6,支持度为60%,如果人们指定的支持度为60%,则它为频繁项目集。如果指定的支持度为61%,它为非频繁项目集.

本人初学,敬请指教。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: