您的位置:首页 > 其它

【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)

2013-11-22 01:36 666 查看

基本概念

频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘给定数据集中反复出现的联系。
“购物篮”例子,想象全域是商店中商品的集合,每种商品有一个布尔变量,表示该商品是否出现。则每个购物篮可以用一个布尔向量表示。分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则来表示。如computer-->antivirus_software[support=2%;confidence=60%]。规则的支持度和置信度是规则兴趣度的两种度量,分别反映所发现规则的有用性和确定性。如果关联规则满足最小支持度阈值和最小置信度阈值,则它是有趣的。
设A、B是两个项集(如商品的集合),关联规则A-->B,支持度s是事务中包含A U B(即集合A和B的并或A和B二者)的百分比,概率P(A U B)。置信度c是事务中包含A的事务同时也包含B事务的百分比,P(B | A)。
同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
项集的出现频度(简称项集的频度、支持度计数、计数)是包含项集(如2项集{computer,antivirus_software})的事务数。关联规则中的项集支持度support有时称为相对支持度,项集的出现频度称为绝对支持度。
如果项集I的相对支持度满足最小支持度阈值(即I的绝对支持度满足对应的最小支持度计数阈值),则I是频繁项集。
A-->B的置信度容易从A和A U B的支持度计数推出,confidence(A-->B)=P(B | A)=support(A U B)/support(A)=support_count(A U B)/support_count(A)。
如果知道A、B、A U B的支持度计数,则导出对应的关联规则A-->B和B-->A,并检查它们是否是强规则是直截了当的。因此,挖掘关联规则的问题可以归结为挖掘频繁项集。
关联规则的挖掘包含两频:1)找出所有的频繁项集(项集出现的次数至少与预定的最小支持计数min_sup一样);2)由频繁项集产生强关联规则(这些规则必须满足最小支持度和最小置信度)。第二步的开销远低于第一步,因此挖掘关联规则的总体性能由第一步决定。
从大型数据集中挖掘频繁项集,常常产生大量满足最小支持度阈值的项集,项集的个数太大,无法计算和存储。为克服这一困难,引入闭频繁项集和极大频繁项集的概念。

闭频繁项集:项集X是数据集D中的闭频繁项集,如果X是频繁项集,且X再加任何一项,其支持度计数都会变化(即X是闭的)。
极大频繁项集:项集X是数据集D中的极大频繁项集(或极大项集),如果X是频繁项集,且X再加任何一项,它都不再是频繁的。
闭频繁项集的集合包含了频繁项集的完整信息。

频繁项集挖掘方法

Apriori算法:通过限制候选产生发现频繁项集

Apriori算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索k+1项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合L1。然后使用L1找出L2,如此下去,直到不能再找到频繁k项集。但是,找出每个Lk需要一次数据库的完整扫描。为提高频繁项集逐层产生的效率,可以使用先验性质来压缩搜索空间。
先验性质:频繁项集的所有非空子集也一定是频繁的。反单调性:如果一个集合不通过测试,则它的所有超集也不能通过相同的测试。先验性质具有反单调性。
在Apriori中使用先验性质:例由L k-1得出L k,主要由两步组成,连接步和剪枝步。

连接步
剪枝步

00

由频繁项集产生关联规则

提高Apriori算法的效率

挖掘频繁项集的模式增长方法

使用垂直数据格式挖掘频繁项集

挖掘闭模式和极大模式

哪些模式是有趣的:模式评估方法

强规则不一定是有趣的

从关联分析到相关分析

模式评估度量比较
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: