数据挖掘方法:CRISP-DM跨行业标准过程
2016-10-22 16:01
477 查看
数据挖掘活动主要分为无监督和有监督两大类。在无监督数据挖掘中,我们对各个变量不区别对待,而是考察它们之间的关系。这类方法有描述和可视化、关联规则分析、聚类分析、主成分分析等。在有监督数据挖掘中,我们希望建立根据一些变量来预测另一些变量的模型,前者被称为自变量,后者被称为因变量。有监督数据挖掘能从数据中获取深度细致的信息,应用非常广泛(如针对贷款企业违约率的预测、针对信用卡客户对营销活动的响应情况的预测、零售商店的销售预测等)。
CRISP-DM(CRoss-IndustryStandardProcessforDataMining,数据挖掘的跨行业标准过程)是由DaimlerChrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(http://www.crisp-dm.org)。CRISP-DM参考模型将数据挖掘分为以下六个阶段:
1.业务理解
从业务的角度理解项目实施的目的和要求,将这种理解转化为一个数据挖掘问题,并设计能达成目标的初步方案。
2.数据理解
收集原始数据,熟悉它们,考察数据的质量问题,对数据形成初步的洞见。
3.数据准备
从原始数据中构造用于建模的最终数据集,构造过程中包含观测选择和变量选择、数据转换和清理等多种活动。
4.建模选择
并应用多种建模方法,优化各种模型。
5.模型评估
全面评估模型,回顾建立模型的各个步骤,确保模型与业务目标一致,并决定如何使用模型的结果。
6.模型发布
以客户友好的方式组织并呈现从数据挖掘中所获取的知识。这一阶段经常会在组织的决策过程中灵活地应用模型。例如,在建立了预测贷款企业违约率的模型后,模型发布形式可以如下:信贷员在前台输入一个贷款企业的各种信息,后台使用模型预测违约概率后直接反馈给前台,帮助信贷员决定是否给该企业贷款。
前五个阶段都不是线性或一蹴而就的。在数据理解阶段可能发现数据能支持的业务目标不同于业务理解阶段所设定的目标,所以需要重新回到业务理解阶段;数据准备阶段和建模阶段互为反馈,需要反复改进建模数据集的构造方法和建模的方法;模型评估阶段可能发现模型的结果与预先设定的业务目标不符,需要重新进行业务理解。
CRISP-DM(CRoss-IndustryStandardProcessforDataMining,数据挖掘的跨行业标准过程)是由DaimlerChrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(http://www.crisp-dm.org)。CRISP-DM参考模型将数据挖掘分为以下六个阶段:
1.业务理解
从业务的角度理解项目实施的目的和要求,将这种理解转化为一个数据挖掘问题,并设计能达成目标的初步方案。
2.数据理解
收集原始数据,熟悉它们,考察数据的质量问题,对数据形成初步的洞见。
3.数据准备
从原始数据中构造用于建模的最终数据集,构造过程中包含观测选择和变量选择、数据转换和清理等多种活动。
4.建模选择
并应用多种建模方法,优化各种模型。
5.模型评估
全面评估模型,回顾建立模型的各个步骤,确保模型与业务目标一致,并决定如何使用模型的结果。
6.模型发布
以客户友好的方式组织并呈现从数据挖掘中所获取的知识。这一阶段经常会在组织的决策过程中灵活地应用模型。例如,在建立了预测贷款企业违约率的模型后,模型发布形式可以如下:信贷员在前台输入一个贷款企业的各种信息,后台使用模型预测违约概率后直接反馈给前台,帮助信贷员决定是否给该企业贷款。
前五个阶段都不是线性或一蹴而就的。在数据理解阶段可能发现数据能支持的业务目标不同于业务理解阶段所设定的目标,所以需要重新回到业务理解阶段;数据准备阶段和建模阶段互为反馈,需要反复改进建模数据集的构造方法和建模的方法;模型评估阶段可能发现模型的结果与预先设定的业务目标不符,需要重新进行业务理解。
相关文章推荐
- 数据挖掘的标准方法CRISP-DM
- PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
- PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
- 数据挖掘标准规范之CRISP-DM基础
- CRISP-DM (cross-industry standard process for data mining) 跨行业数据挖掘标准流程
- 数据挖掘标准流程——CRISP-DM
- 数据挖掘标准规范之CRISP-DM基础
- CRISP-DM(跨行业数据挖掘标准流程…
- 数据挖掘标准流程——CRISP-DM
- 数据挖掘标准规范之CRISP-DM基础
- IFC标准是为了满足建筑行业的信息交互与共享而产生的统一数据标准,是建 筑行业事实上的数据交换与共享标准。本文概要介绍了IFC标准的产生及发展 历程,IFC的整体框架结构,简要说明了IFC标准的实现方法和过程,描述了 当前的应用以及我们应该更加积极地利用IFC标准为建筑软件行业服务。
- 数据挖掘标准 CRISP-DM 学习
- 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念
- 数据挖掘方法论crisp-DM
- CRoss Industry Standard Process for Data Mining (数据挖掘标准过程)
- 数据挖掘与预测分析------跨行业数据挖掘标准流程:CRISP-DM
- CRISP-DM 跨行业数据挖掘标准流程
- 学习笔记——数据挖掘过程与方法 Data Mining
- 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念
- CRISP-DM——数据挖掘项目标准流程