机器学习(十):Apriori算法
2016-01-18 21:03
190 查看
一、基础概念
支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例置信度:比如{尿布,啤酒}的支持度为3/5,{尿布}的支持度为4/5,那么“尿布->啤酒”的可信度为3/4.
二、算法详情
Apriori原理:如果一个项集不是频繁项集,那么它的所有超集都不是频繁项集。关联分析的目标包括两个:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规则。
Apriori算法的两个输入:最小支持度和原数据集
寻找频繁项集的过程:
首先生成所有单个元素的项集列表,接着扫描所有数据来查看哪些项集满足最小支持度要求,那些不满足的集合会被去掉。然后,对剩下来的集合进行组合以生成包含两个元素的项集。接下来,再重新扫描数据集,去掉不满足最小支持度的项集。该过程重复进行直到所有项集都被去掉。
从频繁项集中挖掘关联规则:
一个性质:如果某条规则,例如x1,x2,x3->x4不满足最小置信度要求,那么该规则的所有子集也不满足最小可信度要求。(任何左部为{x1,x2,x3}子集的规则都不会满足,比如x1,x2->x3,x4)(这个性质很好解释,因为求可信度的分式中,分子不变,还是x1x2x3x4的支持度,但是分母变小或者不变)。
通过这个性质可以减少需要测试的规则条目。
相关文章推荐
- 自定义View-七日利率折线图
- java基础学习总结——线程(二)
- ORA-00600 [kcratr_nab_less_than_odr] ORA-01552 发生及解决方案
- hdu 1387 Team Queue (链表)
- 也说php从mysql数据库通过服务器端json返回数据出现乱码问题
- Python实现同时找最大最小值(优化版本)
- RHEL7.0 日志系统
- java基础学习总结——线程(一)
- 并查集-HDU-1232-畅通工程
- dubbo 服务端和客户端调用
- zend studio12.5破解方法
- ORM的概念, ORM到底是什么
- clear-both的使用
- 批处理中setlocal enabledelayedexpansion的作用详细整理
- The listener supports no services TNS-12541: TNS-12560: TNS-00511: Linux Error:
- sql server存储过程
- [问题记录]AutoLayout下UIScrollView 布局错位及解决方法
- java基础学习总结——哈希编码
- bzoj2783【JLOI2012】树
- 实现获取指定城市的天气预报