您的位置:首页 > 其它

机器学习(十):Apriori算法

2016-01-18 21:03 190 查看

一、基础概念

支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例

置信度:比如{尿布,啤酒}的支持度为3/5,{尿布}的支持度为4/5,那么“尿布->啤酒”的可信度为3/4.

二、算法详情

Apriori原理:如果一个项集不是频繁项集,那么它的所有超集都不是频繁项集。

关联分析的目标包括两个:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规则。

Apriori算法的两个输入:最小支持度和原数据集

寻找频繁项集的过程:

首先生成所有单个元素的项集列表,接着扫描所有数据来查看哪些项集满足最小支持度要求,那些不满足的集合会被去掉。然后,对剩下来的集合进行组合以生成包含两个元素的项集。接下来,再重新扫描数据集,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。

从频繁项集中挖掘关联规则:

一个性质:如果某条规则,例如x1,x2,x3->x4不满足最小置信度要求,那么该规则的所有子集也不满足最小可信度要求。(任何左部为{x1,x2,x3}子集的规则都不会满足,比如x1,x2->x3,x4)(这个性质很好解释,因为求可信度的分式中,分子不变,还是x1x2x3x4的支持度,但是分母变小或者不变)。

通过这个性质可以减少需要测试的规则条目。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: