关于apriori算法中置信度、支持度怎么理解的问题
2017-12-10 10:22
351 查看
比如说啤酒喝尿布的问题:
TID是transaction ID 即交易编号,说白了就是有五个人在超市买了这样的东西(Iteams),现在我们统计一下,大家买的东西之间有
没有什么规律,比如买面包的是不是很可能同时买牛奶这样的规律。
那问题来了,有啥东西去度量面包与牛奶有没有关系以及啤酒喝尿布有没有关系?有很多,这里只说置信度和支持度:
支持度:
这是啥?答:support的首字母S支持度,是规则:{Milk, Diaper}→{Beer}的支持度(规则是神马?就是比如说买了Milk和Diaper的人会不会买Beer),所以支持度分母是这三个都买的人数,分子是买东西的总人数。
仔细想想是不是合理这样定义?:假如这个支持度越大,说明同时买这三个东西的人多,说明这三者之间有关系!对吧?很容易理解。但是!!!!!!!!!!!!!!!!!只用这一个可靠吗?再这样想一下,交易量特别大的时候,假如有一万个人买东西,只有10个人同时买了Milk、Diaper、Beer,但其他9990个人没有买这三者中的任何一个,那么此时S=10/10000=0.001,
是不是特别小?如果仅从这个0.001看,这三者之间没有任何关系,但是事实却不是这样,因为只有十个人这样买,并且同时买了这三种东西,所以他们之间应该是由关系的,而不是偶然。
置信度:
为了解决上面问题,再加一个置信度概念。Confidence。根据表格计算置信度如下:
这是啥?和S支持度比较只有分母变了,变成了买了Milk和Diaper两种东西的人,这个式子是说买了Milk和Diaper两种东西的人里面又有多少人买了Beer这个东西!
》》》》》》》》》》》》》》》》》》你先缓缓这个式子》》》》》》》》》》》》》》》》》》》》》》》》》》》》》
那这个式子怎么就解决上面的问题了呢?还是那一万个人的情况下,此时c=10/10=100%!!!!!!!!!!!, 明白了吗,只有十个人买了Milk和Diaper两种东西,但是这十个人又都买了Beer!,所以这个值为100%,因此他能衡量一部分关联规则。
又有人问了,只用置信度行吗?很明显不行啊!!!比如1万个人,只有一个人买了Milk和Diaper两种东西,并且顺手买了一瓶Beer,那么此时c=1/1=100%,很大,但是很明显就这一个交易不能说明三者之间有关系啊。这时候S=1/10000=0.0001,特别的小!!!!
所以正确的有关联的判定是:置信度和支持度都应该比较大才可以认为这些东西之间有关联!
TID是transaction ID 即交易编号,说白了就是有五个人在超市买了这样的东西(Iteams),现在我们统计一下,大家买的东西之间有
没有什么规律,比如买面包的是不是很可能同时买牛奶这样的规律。
那问题来了,有啥东西去度量面包与牛奶有没有关系以及啤酒喝尿布有没有关系?有很多,这里只说置信度和支持度:
支持度:
这是啥?答:support的首字母S支持度,是规则:{Milk, Diaper}→{Beer}的支持度(规则是神马?就是比如说买了Milk和Diaper的人会不会买Beer),所以支持度分母是这三个都买的人数,分子是买东西的总人数。
仔细想想是不是合理这样定义?:假如这个支持度越大,说明同时买这三个东西的人多,说明这三者之间有关系!对吧?很容易理解。但是!!!!!!!!!!!!!!!!!只用这一个可靠吗?再这样想一下,交易量特别大的时候,假如有一万个人买东西,只有10个人同时买了Milk、Diaper、Beer,但其他9990个人没有买这三者中的任何一个,那么此时S=10/10000=0.001,
是不是特别小?如果仅从这个0.001看,这三者之间没有任何关系,但是事实却不是这样,因为只有十个人这样买,并且同时买了这三种东西,所以他们之间应该是由关系的,而不是偶然。
置信度:
为了解决上面问题,再加一个置信度概念。Confidence。根据表格计算置信度如下:
这是啥?和S支持度比较只有分母变了,变成了买了Milk和Diaper两种东西的人,这个式子是说买了Milk和Diaper两种东西的人里面又有多少人买了Beer这个东西!
》》》》》》》》》》》》》》》》》》你先缓缓这个式子》》》》》》》》》》》》》》》》》》》》》》》》》》》》》
那这个式子怎么就解决上面的问题了呢?还是那一万个人的情况下,此时c=10/10=100%!!!!!!!!!!!, 明白了吗,只有十个人买了Milk和Diaper两种东西,但是这十个人又都买了Beer!,所以这个值为100%,因此他能衡量一部分关联规则。
又有人问了,只用置信度行吗?很明显不行啊!!!比如1万个人,只有一个人买了Milk和Diaper两种东西,并且顺手买了一瓶Beer,那么此时c=1/1=100%,很大,但是很明显就这一个交易不能说明三者之间有关系啊。这时候S=1/10000=0.0001,特别的小!!!!
所以正确的有关联的判定是:置信度和支持度都应该比较大才可以认为这些东西之间有关联!
相关文章推荐
- 关于apache服务器支持断点续传的一点理解
- 关于nodejs express4.X框架不支持layout模板的问题解决
- 关于GHO文件怎么安装,GHO文件怎么打开等问题解答
- C#关于iTextSharp将html转换为pdf不支持中文问题
- 关于流和缓冲区的理解以及一般标准输入问题的解决方法小结.
- 注意记录Struts2关于值栈的理解,解决重复用户登录的问题
- 刚才写的怎么不见了乜,重新写一遍. 关于获取SQL Server字段备注(Description)的问题
- 关于怎么在vc++开发的程序中使用SkinMagic Toolkit的问题
- 理解io端口和io内存--关于驱动开发的问题
- 关于真机ios图标失真的问题以及图标的理解
- 关于DELPHI程序多语言支持的问题
- 怎么理解Spring MVC Controller线程安全性问题
- HTTP请求关于GET/POST 理解若干问题
- 关于css的absolute和relative的问题理解
- 【学习笔记】关于苹果Safari浏览器不支持sessionStorage的问题
- 关于ubuntu网卡支持问题的解决办法
- 问题:只安装了GNOME, yum install krusader 默认不支持samba/sftp etc, 怎么办
- 关于IE和火狐,谷歌,Safari对Html标签Object和Embed的支持问题
- 关于View设置selector不支持state_pressed的问题
- 关于KCF的几个问题个人理解