机器学习实战精读--------Apriori算法
2017-09-03 22:20
190 查看
关联分析(关联规则学习):从大规模数据集中寻找物品间的隐含关系,
Apriori算法:一种挖掘关联规则的频繁项算法,其核心是通过候选集生成和情节的向下封闭检测ll阶段来挖掘频繁项集,它是最具影响的挖掘布尔关联规则频繁集的算法
Aprior算法缺点:① 可能产生大量候选集;② 可能需要重复扫描数据库。
频繁项集:经常出现在一块的物品的集合
关联规则:暗示两种物品之间可能存在很强的关系
一个项集的支持度:数据集中包含该项集的记录所占的比例;支持度是针对项集来说的。
可信度(置信度):针对一条诸如{尿布}-》{葡萄酒}的关联规则来定义的,这条规则的可信度可以被定义为“支持度({尿布,葡萄酒})/支持度({尿布})”
支持度和可信度是用来量化关联分析是否成功的方法
Apriori原理:如果说某个项集是频繁的,那么它的所有子集也是频繁的;如果一个项集是非频繁的,anemia它的所有超集也是非频繁的。使用该原理可以避免项集数目的指数增长,从而在合理的时间内计算出频繁项集。
关联分析的目标:发现频繁项集和发现关联规则。先找到频繁项集,然后才能获得关联规则。
Apriori算法:一种挖掘关联规则的频繁项算法,其核心是通过候选集生成和情节的向下封闭检测ll阶段来挖掘频繁项集,它是最具影响的挖掘布尔关联规则频繁集的算法
Aprior算法缺点:① 可能产生大量候选集;② 可能需要重复扫描数据库。
频繁项集:经常出现在一块的物品的集合
关联规则:暗示两种物品之间可能存在很强的关系
一个项集的支持度:数据集中包含该项集的记录所占的比例;支持度是针对项集来说的。
可信度(置信度):针对一条诸如{尿布}-》{葡萄酒}的关联规则来定义的,这条规则的可信度可以被定义为“支持度({尿布,葡萄酒})/支持度({尿布})”
支持度和可信度是用来量化关联分析是否成功的方法
Apriori原理:如果说某个项集是频繁的,那么它的所有子集也是频繁的;如果一个项集是非频繁的,anemia它的所有超集也是非频繁的。使用该原理可以避免项集数目的指数增长,从而在合理的时间内计算出频繁项集。
关联分析的目标:发现频繁项集和发现关联规则。先找到频繁项集,然后才能获得关联规则。
相关文章推荐
- 机器学习实战精读--------回归
- 机器学习实战精读--------K-近邻算法
- 机器学习实战学习笔记10——Apriori算法
- 代码注释:机器学习实战第11章 使用Apriori算法来发现频繁集
- 机器学习实战——第十一/十二章:关联规则挖掘Apriori算法和FP-growth算法
- 机器学习实战精读--------支持向量机
- 机器学习实战--笔记9(Apriori算法)
- 机器学习实战精读--------主成分分析(PCA)
- 机器学习实战笔记9(Apriori算法)
- 读书笔记:机器学习实战(4)——章五的逻辑回归代码和个人理解
- 读书笔记:机器学习实战【第5章:Logistic回归】
- 机器学习实战python环境配置
- 机器学习实战:单变量线性回归的实现
- 机器学习实战 k-近邻算法
- 机器学习实战之贝叶斯(一)
- 机器学习实战第四章朴素贝叶斯(1)
- 机器学习实战笔记——KNN算法
- 机器学习实战笔记3(决策树与随机森林)
- 将机器学习实战里的.data数据快速转换成dataframe数据