您的位置：首页 > 其它

【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性：基本概念和方法（编缉中）

2013-11-22 01:36 666 查看

基本概念

频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。频繁模式挖掘给定数据集中反复出现的联系。
“购物篮”例子，想象全域是商店中商品的集合，每种商品有一个布尔变量，表示该商品是否出现。则每个购物篮可以用一个布尔向量表示。分析布尔向量，得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则来表示。如computer-->antivirus_software[support=2%；confidence=60%]。规则的支持度和置信度是规则兴趣度的两种度量，分别反映所发现规则的有用性和确定性。如果关联规则满足最小支持度阈值和最小置信度阈值，则它是有趣的。
设A、B是两个项集（如商品的集合），关联规则A-->B，支持度s是事务中包含A U B（即集合A和B的并或A和B二者）的百分比，概率P（A U B）。置信度c是事务中包含A的事务同时也包含B事务的百分比，P（B | A）。
同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
项集的出现频度（简称项集的频度、支持度计数、计数）是包含项集（如2项集{computer,antivirus_software}）的事务数。关联规则中的项集支持度support有时称为相对支持度，项集的出现频度称为绝对支持度。
如果项集I的相对支持度满足最小支持度阈值（即I的绝对支持度满足对应的最小支持度计数阈值），则I是频繁项集。
A-->B的置信度容易从A和A U B的支持度计数推出，confidence(A-->B)=P(B | A)=support(A U B)/support(A)=support_count(A U B)/support_count(A)。
如果知道A、B、A U B的支持度计数，则导出对应的关联规则A-->B和B-->A，并检查它们是否是强规则是直截了当的。因此，挖掘关联规则的问题可以归结为挖掘频繁项集。
关联规则的挖掘包含两频：1）找出所有的频繁项集（项集出现的次数至少与预定的最小支持计数min_sup一样）；2）由频繁项集产生强关联规则（这些规则必须满足最小支持度和最小置信度）。第二步的开销远低于第一步，因此挖掘关联规则的总体性能由第一步决定。
从大型数据集中挖掘频繁项集，常常产生大量满足最小支持度阈值的项集，项集的个数太大，无法计算和存储。为克服这一困难，引入闭频繁项集和极大频繁项集的概念。

闭频繁项集：项集X是数据集D中的闭频繁项集，如果X是频繁项集，且X再加任何一项，其支持度计数都会变化（即X是闭的）。
极大频繁项集：项集X是数据集D中的极大频繁项集（或极大项集），如果X是频繁项集，且X再加任何一项，它都不再是频繁的。
闭频繁项集的集合包含了频繁项集的完整信息。

频繁项集挖掘方法

Apriori算法：通过限制候选产生发现频繁项集

Apriori算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索k+1项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合L1。然后使用L1找出L2，如此下去，直到不能再找到频繁k项集。但是，找出每个Lk需要一次数据库的完整扫描。为提高频繁项集逐层产生的效率，可以使用先验性质来压缩搜索空间。
先验性质：频繁项集的所有非空子集也一定是频繁的。反单调性：如果一个集合不通过测试，则它的所有超集也不能通过相同的测试。先验性质具有反单调性。
在Apriori中使用先验性质：例由L k-1得出L k，主要由两步组成，连接步和剪枝步。

连接步
剪枝步

00

由频繁项集产生关联规则

提高Apriori算法的效率

挖掘频繁项集的模式增长方法

使用垂直数据格式挖掘频繁项集

挖掘闭模式和极大模式

哪些模式是有趣的：模式评估方法

强规则不一定是有趣的

从关联分析到相关分析

模式评估度量比较

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航