您的位置:首页 > 其它

数据挖掘方法:CRISP-DM跨行业标准过程

2016-10-22 16:01 477 查看
数据挖掘活动主要分为无监督和有监督两大类。在无监督数据挖掘中,我们对各个变量不区别对待,而是考察它们之间的关系。这类方法有描述和可视化、关联规则分析、聚类分析、主成分分析等。在有监督数据挖掘中,我们希望建立根据一些变量来预测另一些变量的模型,前者被称为自变量,后者被称为因变量。有监督数据挖掘能从数据中获取深度细致的信息,应用非常广泛(如针对贷款企业违约率的预测、针对信用卡客户对营销活动的响应情况的预测、零售商店的销售预测等)。

CRISP-DM(CRoss-IndustryStandardProcessforDataMining,数据挖掘的跨行业标准过程)是由DaimlerChrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(http://www.crisp-dm.org)。CRISP-DM参考模型将数据挖掘分为以下六个阶段:

1.业务理解

从业务的角度理解项目实施的目的和要求,将这种理解转化为一个数据挖掘问题,并设计能达成目标的初步方案。

2.数据理解

收集原始数据,熟悉它们,考察数据的质量问题,对数据形成初步的洞见。

3.数据准备

从原始数据中构造用于建模的最终数据集,构造过程中包含观测选择和变量选择、数据转换和清理等多种活动。

4.建模选择

并应用多种建模方法,优化各种模型。

5.模型评估

全面评估模型,回顾建立模型的各个步骤,确保模型与业务目标一致,并决定如何使用模型的结果。

6.模型发布

以客户友好的方式组织并呈现从数据挖掘中所获取的知识。这一阶段经常会在组织的决策过程中灵活地应用模型。例如,在建立了预测贷款企业违约率的模型后,模型发布形式可以如下:信贷员在前台输入一个贷款企业的各种信息,后台使用模型预测违约概率后直接反馈给前台,帮助信贷员决定是否给该企业贷款。

前五个阶段都不是线性或一蹴而就的。在数据理解阶段可能发现数据能支持的业务目标不同于业务理解阶段所设定的目标,所以需要重新回到业务理解阶段;数据准备阶段和建模阶段互为反馈,需要反复改进建模数据集的构造方法和建模的方法;模型评估阶段可能发现模型的结果与预先设定的业务目标不符,需要重新进行业务理解。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐