您的位置:首页 > 理论基础 > 数据结构算法

初识“数据挖掘”(转)

2004-11-05 18:25 330 查看

初识“数据挖掘”

近日,在翻阅《电化教育研究》杂志时,见2002年第9期上有一篇名为“数据挖掘在远程教育个性化服务中的应用”的文章,由此对数据挖掘初有认识,也隐约觉得它不仅可在应用于技术领域,在社科研究领域一样有其舞台。在社科研究领域,“数据挖掘”该如何上演,虽没有具体想法,但想把这想法记了下来,供以后参阅。

在这篇文章中,作者阐述了“数据挖掘”的相关内容,具体如下:

数据挖掘的定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应有数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知、有效和可实用三个特性。

数据挖掘的功能特性:
(1)自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,它根据时间序列型数据,由历史的和当前的数据去推测未来的数据。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销做出反应的客户。目前,预测方法有经典的统计方法、神经网络和机器学习等。

(2)关联分析
它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。也就是通过数据挖掘可找出数据库中隐藏的关联网从而指导决策制定。例如在购买面包和黄油的顾客中,有90%的人同时也买了牛奶。这样就可将面包、黄油和牛奶这些顾客经常同时购买的商品摆放在一起来提高售货效益。

(3)聚类
聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别和数学分类学。

(4)概念描述
概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别,生成一个类的特征性描述,只涉及该类对象中所有对象的共性。而区别性描述的方法很多,如决策树方法、遗传算法等。

(5)偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。

数据挖掘的流程:
(1)问题定义
在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求。缺少了背景知识,就不能明确定义要解决的问题,就不能为挖掘准备优质的数据,也很难正确的解释得到的结果。要想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。

(2)建立数据挖掘库
要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中,而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数据,而且还会遇到采用外部数据的情况;另外,数据挖掘还要对数据进行各种纷繁复杂的统计分析,而数据仓库可能不支持这些数据结构。

(3)分析数据
分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,用聚类分析区分类别,最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系,发现因素之间的相关性。

(4)调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。

(5)模型化
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型。这一步是数据挖掘的核心环节,一般运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。

(6)评价和解释
上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估的一种办法是直接使用原先建立的挖掘数据库中的数据来进行检验,另一种办法是另找一批数据并对其进行检验,再一种办法是在实际运行的环境中取出新鲜数据进行检验。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息