您的位置:首页 > 其它

数据挖掘基础知识

2016-05-19 20:41 381 查看
随着计算机技术、网络技术、通讯技术的快速发展,企业产生了大量的业务数据。

这些数据体量大,通常以TB计算;这些数据包含企业运行中非常有价值的信息。

这些海量信息无法通过常用的方法提取有价值的信息。

为了分析这些数据,发掘企业运行中有规律的信息、为商业决策提供辅助,使企业获取更高利润;或者使政府决策部门做出更加科学合理的公共决策。

我们采用数据挖掘技术,是一个强有力的工具。

简单地讲,对于企业而言:通过数据挖掘,能够揭示企业的运行规律、发展业务新方向、揭示已知事实,预测未知结果。

因此,从这个角度讲,知识就是力量,数据挖掘是财富。

数据挖掘的定义:从大量数据(包括文本)中挖掘隐含的、未知的、对决策有潜在价值的关系、模式、趋势,利用这些知识和规则建立起用于决策支持的模型,提供预测性决策支持的方法、工具、过程。

数据挖掘技术在企业商业智能中的应用级别与企业商业智能级别之间的关系,见下图。



可知,传统报表方式,只能查看企业的历史和现状信息,通过一定的分析也能定位问题出现的地方和解决方案。

现代数据挖掘技术,能够对历史数据进行深入分析,找出问题发生的原因,建立数据模型,从而预测企业业务发展方向,发现业务增长新潜力点,甚至优化业务结构和方向,实现最佳的商业决策。

数据挖掘是现有商务智能平台的核心组成部分,具体作用见下图。



可知,数据来源是基础;数据存储是数据转换的核心环节,是数据处理加工的前提;数据加工是关键、也是核心环节;业务应用是web应用基础,是对外的接口。

聚类问题常见案例:营销人群分类、股票分类。具体聚类建模原则,见下图。



关联规则:

商业上的交叉销售,提高销售额。

银行方面,分析顾客消费行为,有针对性的推荐其感兴趣的服务。

制造业零件,与设备故障的关联。

关联分析常用的两种技术:关联规则、时间序列。

关联规则重点分析两种事物之间的关联性和依赖性;时间序列重点分析数据之间的前因后果,挖掘数据之间在时间上的因果关系。

时间模式:

与关联模式不同,重点考察数据在时间维度上的关联性。

包含时间序列分析、序列发现。

时间序列分析:数据属性随时间变化的。而回归不强调数据之间的先后顺序、时间序列需要考虑。比如节假日。

序列发现:确定数据之间与时间相关的序列模式。

时间序列的组合部分:y=f(t,s,c,l).t,s,c,l分别是长期趋势、季节变动、周期变化、不规则变化四种因素。

时间序列的组合模型:加法(t+s+c+l)、乘法(t*s*c*l)。

偏差检测:

偏差是对差异和极端特例的表述。

如分类中的反常实例、聚类外的利群点、不满足规则的特例,见下图。



大部分数据挖掘中,会将这种情况作为噪声去掉。

有些情况下,这种数据可能比正常值更加有用。举个例子,更好理解。???

数据挖掘建模一般过程:见下图。



数据挖掘的一般过程,可作为方法论参考。见下图。



具体步骤如下:

1、定义挖掘目标:要挖掘什么信息?

2、数据抽样:那些数据源可用?与当前问题是否相关?取样质量是否过关?是否有足够代表性?如何分类训练集&测试集。

随机抽样、等距抽样、分层抽样、分类抽样。

3、数据探索:是否存在残缺值、异常值;是否存在明显的规律和趋势,数据是否存在周期性;样本属性与挖掘目标是否存在相关性。

4、预处理:降维处理;缺失值如何处理:删除元组、数据补齐;属性处理。

5、模式发现:用分类、聚类、关联规则、时间序列?

6、预测建模:选用哪个算法?KNN、Kmeans、ID3/C45?

7、模型评价:

评估目的:找到好的模型和算法、对模型针对的业务进行解释和应用。

效果评价:最低的标准是用原理的样本数据进行检验;高一点的标准是用相似数据进行验证;在高一点的标准是用完全不相关的数据进行验证。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘