您的位置:首页 > 编程语言 > Python开发

机器学习实战学习笔记11——FP-growth 算法

2017-01-16 20:55 357 查看

1.FP-growth算法概述

1.1FP-growth算法介绍

FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,它采取分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。

1.2FP-growth算法原理

FP-growth算法使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

FP-growth只需要扫描数据两次,它发现频繁项集的基本过程如下:

(1)构建FP树;

(2)从FP树中挖掘频繁项集。

1.3FP-growth算法优缺点

(1)优点:在发现频繁项集方面,比Apriori效率高很多

(2)缺点:实现比较困难,在某些数据集上性能会下降

(3)应用范围:在文本文档中查找频繁单词、从新闻网站查找最热门的新闻报道。

2.用FP树挖掘频繁项集

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息