您的位置：首页 > 其它

机器学习（十）：Apriori算法

2016-01-18 21:03 190 查看

一、基础概念

支持度：一个项集的支持度被定义为数据集中包含该项集的记录所占的比例

置信度：比如{尿布，啤酒}的支持度为3/5,｛尿布｝的支持度为4/5,那么“尿布－>啤酒”的可信度为3/4.

二、算法详情

Apriori原理：如果一个项集不是频繁项集，那么它的所有超集都不是频繁项集。

关联分析的目标包括两个：发现频繁项集和发现关联规则。首先需要找到频繁项集，然后才能获得关联规则。

Apriori算法的两个输入：最小支持度和原数据集

寻找频繁项集的过程：

首先生成所有单个元素的项集列表，接着扫描所有数据来查看哪些项集满足最小支持度要求，那些不满足的集合会被去掉。然后，对剩下来的集合进行组合以生成包含两个元素的项集。接下来，再重新扫描数据集，去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。

从频繁项集中挖掘关联规则：

一个性质：如果某条规则，例如x1,x2,x3->x4不满足最小置信度要求，那么该规则的所有子集也不满足最小可信度要求。（任何左部为{x1,x2,x3}子集的规则都不会满足，比如x1,x2->x3,x4）（这个性质很好解释，因为求可信度的分式中，分子不变，还是x1x2x3x4的支持度，但是分母变小或者不变）。

通过这个性质可以减少需要测试的规则条目。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航