您的位置：首页 > 其它

机器学习实战精读--------Apriori算法

2017-09-03 22:20 190 查看

关联分析（关联规则学习）：从大规模数据集中寻找物品间的隐含关系，
Apriori算法：一种挖掘关联规则的频繁项算法，其核心是通过候选集生成和情节的向下封闭检测ll阶段来挖掘频繁项集，它是最具影响的挖掘布尔关联规则频繁集的算法
Aprior算法缺点：① 可能产生大量候选集；② 可能需要重复扫描数据库。
频繁项集：经常出现在一块的物品的集合
关联规则：暗示两种物品之间可能存在很强的关系
一个项集的支持度：数据集中包含该项集的记录所占的比例；支持度是针对项集来说的。
可信度（置信度）：针对一条诸如{尿布}-》{葡萄酒}的关联规则来定义的，这条规则的可信度可以被定义为“支持度({尿布，葡萄酒})/支持度（{尿布}）”
支持度和可信度是用来量化关联分析是否成功的方法
Apriori原理：如果说某个项集是频繁的，那么它的所有子集也是频繁的；如果一个项集是非频繁的，anemia它的所有超集也是非频繁的。使用该原理可以避免项集数目的指数增长，从而在合理的时间内计算出频繁项集。
关联分析的目标：发现频繁项集和发现关联规则。先找到频繁项集，然后才能获得关联规则。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Apriori

相关文章推荐

新的分享

章节导航