您的位置：首页 > 其它

数据挖掘之关联规则

2017-09-15 18:15 197 查看

用于数据挖掘的机器学习方法，分为参数化方法和非参数化方法，在用于密度估计、分类或回归的参数化方法中，假定最终模型在整个输入空间上有效

在回归中，推导出一个线性模型后，把它应用于将来所有的输入，在分类中，假定所有样本（训练样本和新的检验样本）都来自于同一个密度分布，在这些情况下，模型是对整个n维样本空间都有效的全局模型

参数化方法的优点是，用少量的参数简化了建模问题，主要缺点是初始假设在很多实际问题中不成立，导致误差过大，在非参数估计中，仅假定近似的输入会产生近似的输出，这类方法没有假设任何先验密度或参数形式，没有单个全局模型，仅估计局部模型，局部模型，仅受邻近训练样本的影响

关联规则的发现是数据挖掘的主要技术之一，也是在无指导学习系统中发现局部模式的最常见形式

购物篮分析

购物篮是顾客在一次事务中所购买商品的集合，事务是一个明确定义的商业行为，例如，顾客在光顾杂货店或在网上的虚拟商店中购物，就是典型的顾客事务，零售商通过记录商业行为，积累了大量的事务信息，事务数据库的一个常见分析是寻找项的集合，或叫做项集（在许多事务中同时出现的项），商家可以使用这些模式信息来改善商店中这些物品的对方，或改善邮购目录页和Web页的布局，包含i项的项集称为i-项集，包含该项集的事务的百分度叫做该项集的支持度，对于要研究的项集，他的支持度必须高于用户指定的最小值，这样的项集叫做频繁项集

寻找频繁项集为什么是个很重要的问题？

首先，客户事务的数量可能会增大，通常不能放在计算机内存中，第二，频繁项集的潜在数量会随着不同的项呈指数增长，但频繁项集的实际数量会小得多，因此，算法是可伸缩的，而且尽可能少的检查非频繁项集

挖掘关联规则的问题可分为两个阶段: A 发现大项集，即事务支持度s大于预定的最小阈值的项集 B 使用大项集来生成数据库中置信度c大于预定的最小阈值的关联规则

Apriori算法

Apriori 算法利用几次的迭代来计算数据库中的频繁项集，第i次迭代计算出所有频繁i-项集（包含i个元素），每次迭代有两步; 产生候选集，计算和选择候选集

根据第一次迭代获得的非频繁项集，Apriori算法除去这些非频繁项集，来减少候选项集的数量，这种去除过程的原理在于：如果一个项集是频繁的，那么它的所有子集都是频繁的

9.从频繁项集中得到关联规则

在第一阶段使用Apriori算法或其他一些类似算法建立的所有频繁i-项集的基础上，来发现关联规则，计算规则的置信度，置信度c大于给定阈值的规则就是强关联规则

并非所有被发掘出的强关联规则（大于要求的支持度s和置信度c）都有意义或者都会用到

提高Apriori算法的效率

因为挖掘频繁项集时处理的数据量越来越大，所以需要设计更有效的算法来挖掘这些数据，Apriori算法扫描数据库的次数完全依赖于最大的频繁项集中项的数量，使用更有效的方法来挖掘频繁项集：包括基于散列技术、分区、取样和使用垂直数据格式，所提出的细化方式主要是较少扫描数据库的次数，或者减少在每次扫描过程中所计算的候选项集的数量，或两者都有

基于分区的Apriori算法只需要对事务数据库进行两次扫描，数据库划分成若干个非重叠的分区，每个分区都可以小刀能保存到内存中，在第一次扫描时，算法读取每个分区，并在每个分区内计算局部频繁项集，在第二次扫描中，算法对整个数据库中所有局部频繁项集的支持度进行计数

在一些实际应用中，事务数据库需要挖掘多次，才能得到顾客的购买信息，在这种应用中，数据挖掘的效率可能要比结果的精确性更重要

13.随着数据库大小的增加，取样成为数据挖掘中的一个不可多得的有效途径，基于取样的算法需要对数据库进行两次扫描，首先，算法从数据库中选择一个样本，生成一个在整个数据库中很可能为频繁的候选项集的集合，在对数据库进行第二次扫描时，算法计算这些项集的实际支持度和他们的负边界的支持度，如果在负边界中没有项集是频繁的，就说明算法已经挖掘出了所有的频繁项集

FP增长方法

FP增长方法，需要数百次的数据库扫描，计算的复杂性也呈指数增长

频繁模式增长方法是在大型数据库中挖掘频繁项集的一个有效算法，这个算法在挖掘频繁项集时，没有耗时的候选集生成过程，而在Apriori中，这是必不可少的，当数据库很大时，FP增长算法首先进行数据库投影，得到频繁项，然后构造一个紧凑的数据结构——FP树，来对它们进行数据挖掘

15关联分类方法

CMAR是FP增长方法中用于生成频繁项集的一种分类方法，本章包含CMAR方法的主要原因是其来自于FP增长方法，而且可以比较CMAR和C4.5方法的准确率和效率

假设数据样本有n个属性，属性可以是分类的或连续的，对于连续型属性，假设在预处理阶段，将其值离散到若干个区间中，训练数据集T是一系列样本，对于每个样本都存在与它关联的类标记

一般情况下，模式P是不同属性的一组值，如果某样本的所有属性值都在模式P中给出，该样本就匹配P

关联分类方法（CMAR）有两个阶段：

AL规则的生成或训练 B:分类或检验

CMAR在平均准确性、效率和可伸缩性方面优于C4.5算法

多级关联规则挖掘

多维事务数据库DB的模式为（ID，A1，A2。。。。。。，items），其中ID为每一个事务在数据库中的唯一标示，Ai是数据库中的结构化属性，items是与给定事务连接的项的集合，每一个元祖t中包含的信息都可以分为两部分，维部分（a1，a2，a3.。。）和项集部分（items-t），一般将数据挖掘过程分为两步：首先挖掘维度信息的模式，然后从投影的子数据库中查找出频繁项集，反之亦然

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据挖掘机器学习关联规则购物篮分析 apriori算法

相关文章推荐

新的分享

章节导航