机器学习实战学习笔记11——FP-growth 算法
2017-01-16 20:55
357 查看
1.FP-growth算法概述
1.1FP-growth算法介绍
FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。1.2FP-growth算法原理
FP-growth算法使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。FP-growth只需要扫描数据两次,它发现频繁项集的基本过程如下:
(1)构建FP树;
(2)从FP树中挖掘频繁项集。
1.3FP-growth算法优缺点
(1)优点:在发现频繁项集方面,比Apriori效率高很多(2)缺点:实现比较困难,在某些数据集上性能会下降
(3)应用范围:在文本文档中查找频繁单词、从新闻网站查找最热门的新闻报道。
2.用FP树挖掘频繁项集
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例
- 通过构建一个简单的掷骰子游戏去学习怎么用 Python 编程