数据挖掘与知识发现课后习题答案
2017-12-23 18:45
309 查看
2、给出一个将关联规则应用于互联网上的例子。
购物分析,通过关联规则推荐与购买物品置信度较高的物品。
3、指出Apriori算法的性能瓶颈。
一是由于对海量数据库的多趟扫描,另一个是用JOIN运算产生潜在频繁项集。
4、指出采用FP_tree结构的优缺点。
优点:在完备性方面,它不会打破交易中的任何模式,而且包含了挖掘序列模式所需的全部信息;在紧密性方面,它剔除不想关信息,不包含非频繁项,按支持度降序排列,支持度高的项在FP_tree中共享的机会也高。性能研究表明FPtree中共享的机会也高。性能研究表明FP_growth比Apriori快一个数量级,这是由于FP_growth不生成候选集,不用候选测试,而且使用紧缩的数据结构,避免重复扫描数据库。FP_growth的基本操作是计数和建立FP_tree。
缺点:当数据库规模非常大时,在内存中构建FP_tree是不切合实际的。
5,数据库有4个事务,设最小支持度为60%,最小信任度为80%
要求好到频繁项集,列出强关联规则。
题目可以列出频繁项集,但没有强关联规则,置信度都小于80%。FP树看书上28页的例题,一看就懂。
反正我算不出来。算出来的留言。
购物分析,通过关联规则推荐与购买物品置信度较高的物品。
3、指出Apriori算法的性能瓶颈。
一是由于对海量数据库的多趟扫描,另一个是用JOIN运算产生潜在频繁项集。
4、指出采用FP_tree结构的优缺点。
优点:在完备性方面,它不会打破交易中的任何模式,而且包含了挖掘序列模式所需的全部信息;在紧密性方面,它剔除不想关信息,不包含非频繁项,按支持度降序排列,支持度高的项在FP_tree中共享的机会也高。性能研究表明FPtree中共享的机会也高。性能研究表明FP_growth比Apriori快一个数量级,这是由于FP_growth不生成候选集,不用候选测试,而且使用紧缩的数据结构,避免重复扫描数据库。FP_growth的基本操作是计数和建立FP_tree。
缺点:当数据库规模非常大时,在内存中构建FP_tree是不切合实际的。
5,数据库有4个事务,设最小支持度为60%,最小信任度为80%
Tid | DATA | ITEMS_BOUGHT |
T100 | 3/5/2003 | {A,C,S,L} |
T200 | 3/5/2003 | {D,A,C,E,B} |
T300 | 4/5/2003 | {A,B,C} |
T400 | 4/5/2003 | {C,A,B,E} |
题目可以列出频繁项集,但没有强关联规则,置信度都小于80%。FP树看书上28页的例题,一看就懂。
反正我算不出来。算出来的留言。
相关文章推荐
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第三章课后习题答案
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第一章课后习题答案
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第六章课后习题答案
- 数据挖掘概念与技术(原书第三版)范明 孟小峰译-----第二章课后习题答案
- 人工智能、机器学习、数据挖掘、知识发现的国际顶级会议排名榜
- 数据挖掘和知识发现的技术、方法及应用
- C++Primer Plus笔记——第三章 处理数据及课后习题答案
- 现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:
- 数据挖掘和知识发现的技术、方法及应用
- 数据挖掘和知识发现的技术、方法及应用
- 数据挖掘和知识发现的技术、方法及应用
- 数据挖掘和知识发现的技术、方法及应用 --------http://blog.csdn.net/gongfs/archive/2006/03/17/627244.aspx
- 数据集——用于数据挖掘、信息检索、知识发现等
- 数据挖掘导论课后习题第二章习题,此篇不断更新中直到本章所有习题全部完成
- 数据集-用于数据挖掘、信息检索、知识发现等
- Chapter2-数据类型_课后习题参考答案
- 数据挖掘与知识发现领域研修建议
- 数据结构(C语言版 第2版)课后习题答案 严蔚敏 编著
- 数据挖掘和知识发现的技术、方法及应用
- 新的大数据的知识发现和数据挖掘