您的位置:首页 > 其它

数据挖掘之关联规则

2017-09-15 18:15 197 查看
用于数据挖掘的机器学习方法,分为参数化方法和非参数化方法,在用于密度估计、分类或回归的参数化方法中,假定最终模型在整个输入空间上有效

在回归中,推导出一个线性模型后,把它应用于将来所有的输入,在分类中,假定所有样本(训练样本和新的检验样本)都来自于同一个密度分布,在这些情况下,模型是对整个n维样本空间都有效的全局模型

参数化方法的优点是,用少量的参数简化了建模问题,主要缺点是初始假设在很多实际问题中不成立,导致误差过大,在非参数估计中,仅假定近似的输入会产生近似的输出,这类方法没有假设任何先验密度或参数形式,没有单个全局模型,仅估计局部模型,局部模型,仅受邻近训练样本的影响

关联规则的发现是数据挖掘的主要技术之一,也是在无指导学习系统中发现局部模式的最常见形式

购物篮分析

购物篮是顾客在一次事务中所购买商品的集合,事务是一个明确定义的商业行为,例如,顾客在光顾杂货店或在网上的虚拟商店中购物,就是典型的顾客事务,零售商通过记录商业行为,积累了大量的事务信息,事务数据库的一个常见分析是寻找项的集合,或叫做项集(在许多事务中同时出现的项),商家可以使用这些模式信息来改善商店中这些物品的对方,或改善邮购目录页和Web页的布局,包含i项的项集称为i-项集,包含该项集的事务的百分度叫做该项集的支持度,对于要研究的项集,他的支持度必须高于用户指定的最小值,这样的项集叫做频繁项集

寻找频繁项集为什么是个很重要的问题?

首先,客户事务的数量可能会增大,通常不能放在计算机内存中,第二,频繁项集的潜在数量会随着不同的项呈指数增长,但频繁项集的实际数量会小得多,因此,算法是可伸缩的,而且尽可能少的检查非频繁项集

挖掘关联规则的问题可分为两个阶段: A 发现大项集,即事务支持度s大于预定的最小阈值的项集 B 使用大项集来生成数据库中置信度c大于预定的最小阈值的关联规则

Apriori算法

Apriori 算法利用几次的迭代来计算数据库中的频繁项集,第i次迭代计算出所有频繁i-项集(包含i个元素),每次迭代有两步; 产生候选集,计算和选择候选集

根据第一次迭代获得的非频繁项集,Apriori算法除去这些非频繁项集,来减少候选项集的数量,这种去除过程的原理在于:如果一个项集是频繁的,那么它的所有子集都是频繁的

9.从频繁项集中得到关联规则

在第一阶段使用Apriori算法或其他一些类似算法建立的所有频繁i-项集的基础上,来发现关联规则,计算规则的置信度,置信度c大于给定阈值的规则就是强关联规则

并非所有被发掘出的强关联规则(大于要求的支持度s和置信度c)都有意义或者都会用到

提高Apriori算法的效率

因为挖掘频繁项集时处理的数据量越来越大,所以需要设计更有效的算法来挖掘这些数据,Apriori算法扫描数据库的次数完全依赖于最大的频繁项集中项的数量,使用更有效的方法来挖掘频繁项集:包括基于散列技术、分区、取样和使用垂直数据格式,所提出的细化方式主要是较少扫描数据库的次数,或者减少在每次扫描过程中所计算的候选项集的数量,或两者都有

基于分区的Apriori算法只需要对事务数据库进行两次扫描,数据库划分成若干个非重叠的分区,每个分区都可以小刀能保存到内存中,在第一次扫描时,算法读取每个分区,并在每个分区内计算局部频繁项集,在第二次扫描中,算法对整个数据库中所有局部频繁项集的支持度进行计数

在一些实际应用中,事务数据库需要挖掘多次,才能得到顾客的购买信息,在这种应用中,数据挖掘的效率可能要比结果的精确性更重要

13.随着数据库大小的增加,取样成为数据挖掘中的一个不可多得的有效途径,基于取样的算法需要对数据库进行两次扫描,首先,算法从数据库中选择一个样本,生成一个在整个数据库中很可能为频繁的候选项集的集合,在对数据库进行第二次扫描时,算法计算这些项集的实际支持度和他们的负边界的支持度,如果在负边界中没有项集是频繁的,就说明算法已经挖掘出了所有的频繁项集

FP增长方法

FP增长方法,需要数百次的数据库扫描,计算的复杂性也呈指数增长

频繁模式增长方法是在大型数据库中挖掘频繁项集的一个有效算法,这个算法在挖掘频繁项集时,没有耗时的候选集生成过程,而在Apriori中,这是必不可少的,当数据库很大时,FP增长算法首先进行数据库投影,得到频繁项,然后构造一个紧凑的数据结构——FP树,来对它们进行数据挖掘

15关联分类方法

CMAR是FP增长方法中用于生成频繁项集的一种分类方法,本章包含CMAR方法的主要原因是其来自于FP增长方法,而且可以比较CMAR和C4.5方法的准确率和效率

假设数据样本有n个属性,属性可以是分类的或连续的,对于连续型属性,假设在预处理阶段,将其值离散到若干个区间中,训练数据集T是一系列样本,对于每个样本都存在与它关联的类标记

一般情况下,模式P是不同属性的一组值,如果某样本的所有属性值都在模式P中给出,该样本就匹配P

关联分类方法(CMAR)有两个阶段:

AL规则的生成或训练 B:分类或检验

CMAR在平均准确性、效率和可伸缩性方面优于C4.5算法

多级关联规则挖掘

多维事务数据库DB的模式为(ID,A1,A2。。。。。。,items),其中ID为每一个事务在数据库中的唯一标示,Ai是数据库中的结构化属性,items是与给定事务连接的项的集合,每一个元祖t中包含的信息都可以分为两部分,维部分(a1,a2,a3.。。)和项集部分(items-t),一般将数据挖掘过程分为两步:首先挖掘维度信息的模式,然后从投影的子数据库中查找出频繁项集,反之亦然
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息