您的位置:首页 > 其它

数据挖掘与知识发现课后习题答案

2017-12-23 18:45 309 查看
2、给出一个将关联规则应用于互联网上的例子。

购物分析,通过关联规则推荐与购买物品置信度较高的物品。

3、指出Apriori算法的性能瓶颈。

一是由于对海量数据库的多趟扫描,另一个是用JOIN运算产生潜在频繁项集。

4、指出采用FP_tree结构的优缺点。

优点:在完备性方面,它不会打破交易中的任何模式,而且包含了挖掘序列模式所需的全部信息;在紧密性方面,它剔除不想关信息,不包含非频繁项,按支持度降序排列,支持度高的项在FP_tree中共享的机会也高。性能研究表明FPtree中共享的机会也高。性能研究表明FP_growth比Apriori快一个数量级,这是由于FP_growth不生成候选集,不用候选测试,而且使用紧缩的数据结构,避免重复扫描数据库。FP_growth的基本操作是计数和建立FP_tree。

缺点:当数据库规模非常大时,在内存中构建FP_tree是不切合实际的。

5,数据库有4个事务,设最小支持度为60%,最小信任度为80%

TidDATAITEMS_BOUGHT
T1003/5/2003{A,C,S,L}
T2003/5/2003{D,A,C,E,B}
T3004/5/2003{A,B,C}
T4004/5/2003{C,A,B,E}
要求好到频繁项集,列出强关联规则。

题目可以列出频繁项集,但没有强关联规则,置信度都小于80%。FP树看书上28页的例题,一看就懂。

反正我算不出来。算出来的留言。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐