您的位置：首页 > 其它

数据挖掘技术浅析

2009-09-19 11:02 274 查看

一. 关键词
1. DM(Data Mining)，DW（Data Warehouse）,OLAP，BI
二. 数据库已经成为收集和分布信息的系统的基础。数据采集目的在于此后根据数据库内容进行正确决策。这些海量数据的深层隐藏的是很多的商业模式（Pattern），规则（Rules），这些隐藏的“商业知识”对于当前的数据拥有者来说意义非凡，因此他们可能预测整个集团未来的商业策略，市场开发计划，以及为公司带来新的盈利点，而要把这些目前还隐藏在大量看似无关联的数据背后的“知识”挖掘出来需要使用专门的统计学或测量方法。
三. 什么是数据挖掘
下面是一些“前人”对数据挖掘的定义：
1. “挖掘”出数据中隐藏的模式，趋势，关系的过程（Groth）
2. 通过自动或半自动的方式在海量数据中发现有用的模式，规则的过程（Beryy＆Linoff）
3. 分析普通的数据（通常是海量的）来发现数据之间比较稳定地关系，以易于理解的方式将数据总结出来向数据所有者提供有价值的决策支持。（Hand,Mannila&Smyth）
4. 在不需要人或很少地手工干预下通过可行地计算机技术来挖掘开采数据，对数据进行分析（Wegman）
5. 从大量的数据库中抽取出此前还没发现的有效实用地的信息，并且此后使用此信息来帮助制定关键的商业决策的过程（Cabena etal）
四. 在做数据挖掘之前我们需要做哪些工作？
1. 大量的数据准备（Case，数据挖掘的事例）(一般应该是108-1012 Bytes，也就是百M到TB级别)
u 103=1K
u 106=1M
u 109=1G
u 1012=1T
2. 数据要是多维的（数据挖掘的变量）
一般是某个数据要有10到104个属性，也就是同一个数据可能从几个不同的角度来观察
五. 为什么需要数据挖掘？
1. 目前只有很小一部分（通常是5％到10％）的数据曾经被分析使用过，其它的数据在Insert到数据库之后就很少再被查看分析过。
2. 数据也许从来没有被分析过，但是当前数据管理者由于害怕在将来这些数据可能会用到，为了不错过将来的使用还是会源源不断地将这些数据收集起来。这样话数据库只会是越来越大，在其中查找有用的信息时的效率会越来越低。
六．Huber-Wegman数据集大小分类法

描述	数据大小（字节）	存储模式
极小	102	纸
小	104	一叠纸
中	106	一张软盘
大	108	硬盘
很大	1010	多个硬盘
极大	1012	磁带
海量	1015	分布式存储

七．现状
a) 最近几十年，许多公司组织花费了大量的资源用于构建及维护资讯数据库，包括开发大规模数据仓库
b) 通常情况下，现有的数据不能通过常规的分析方式分析，原因可能有许多丢失不全的记录也可能是数据是以定量的方式而非定质的形式存在的
c) 在大多数情况下，当前数据库中的信息由于不能方便地访问分析而没有得到足够地重视估或者没有充分使用。
d) 一些数据库增长得太快以至于连系统管理员也经常不清楚系统中哪些信息可以用来处理当前手头的问题，以及系统中的数据与当前手头上的问题之间的关系。
e) 如果为公司组织提供一种方法在这些大数据库中“挖掘”出重要的信息及商业模式对他们是非常有直接的利益好处的
八．为什么最近数据挖掘如此受关注
a) 主要是因为计算机技术尤其是数据库管理方面的技术很复杂棘手
b) 因为数据库中的数据增长很快，手动查找信息会变得非常困难。数据挖掘对于发现和描述关系表中的隐藏模式非常有用。数据挖掘提供的算法允许自动模式查找。
九．KDD数据库中的“知识发现”（Knowledge Discovery in Databases）
a) “知识发现”最早是人工智能（AI，Artificial Intelligence）领域的一个名词
b) KDD由以下几个部分组成（当然包括“数据挖掘”）
i. “数据清洗”（去除噪音数据和不统一数据）
ii. “数据整合”（多个数据源的数据汇总到一起）
iii. “数据筛选”（根据当前要分析的主题从数据库中选取出与主题相关的数据）
iv. “数据转换”（整理，转换数据使他们便于使用诸如“汇总”，“聚合”等挖掘算法的形式）
v. “数据挖掘”（这可是核心的步骤，使用智能化方法来抽取出隐含的模式，规则）
vi. “模式评估”（对刚才新发现的“知识”进行验证评估来检验此模式是不是可行）
vii. “知识表示”（将挖掘出来的模式使用可视化的形式显现给用户）
十．用于数据库挖掘的数据库
可以用于数据库挖掘的数据库有如下几种：
u 关系型数据库
u 数据仓库
u 事务处理数据库
u 支持对象的关系型数据库
u 面向对象的数据库

十一．数据仓库（DW，Data Warehouse）
面向同一个主题，从多个数据源收集在一起，随时间变化但信息本身又相对稳定的信息数据集合。
数据仓库将报告数据从运行着的数据库系统中隔离出来。通过将查询工作移动到更有效率的系统，这种隔离能够提高运行系统的性能。可以提高安全性。敏感信息将保存在不会暴露给查询的运行数据库中。由数据仓库提供的提取级别简化了对决策支持应用程序生成的统计表的访问。
OLTP中的数据定期插入到数据仓库中，数据仓库的结构和安全性方面相对于OLTP来说理简化，因为Data Warehouse的主要目的就是为了提高分析查询的效率，而不是进行联机事务处理。
常规OLTP数据库的基本单位是一个二维表，由行，列组成，而数据仓库的基本单位是多维立方体，可能从多个角度来观察分析这个数据实体，它是来自现有数据源的集成信息储备库。这些单元之间通常是以“星型结构（Star Schema）”或者“雪花结构（Snow Flake Schema）”的形式想关联起来的。
十二． OLAP（On-Line Analytical Processing）联机分析系统
a) 是DST（决策支持工具）的一部分
b) 使用传统的查询与报表形式来描述当前数据库中的信息
c) OLAP主要用于显示回答一个商业模式为什么是对的，也就是验证一个“知识”的正确性（正好与数据挖掘相反，数据挖掘是挖掘出一个新的“知识”模式）
d) 通过对数据库的查询来验证或推翻一系列的“假设”，“关联”。
e) OLAP技术主要通过多维的方式来对数据进行分析、查询和生成报表，它不同于传统的OLTP处理应用。OLTP应用主要是用来完成用户的事务处理，如民航订票系统和银行的储蓄系统等，通常要进行大量的更新操作，同时对响应的时间要求比较高。而OLAP系统的应用主要是对用户当前的及历史数据进行分析，扶助领导决策，其典型的应拥有对银行信用卡风险的分析与预测和公司市场营销策略的制定等，主要是进行大量的查询操作，对时间的要求不太严格。
f) 通常是一个“推论”的过程
十三． OLAP与数据挖掘的比较
a) OLAP主要用于验证一个模式
b) “数据挖掘”主要是根据数据来“发现”一个模式
c) “数据挖掘”通常是一个“演绎”的过程
十四． “数据挖掘”是一个跨学科的边缘技术
主要包括如下学科：
a) 计算机
i. 数据库技术
ii. 机器学习
b) 信息技术
c) 统计学
d) Visiualizaion
e) 模式识别
十五．使用“数据挖掘”的商业应用
a) CRM(Customer Relationship Management)客户关系管理系统
b) Customer behavior 客户行为分析
c) Market basket analysis
d) Retailing 零售业
e) Market Segmentation
f) Creadit scoring 信用等级
g) Fraud detection
h) Taxpayer noncompliance
i) Churn prediction
j) E-business
k) Web-mining
十六．使用“数据挖掘”的其它应用
a) Stock Market trends 股市趋势走向研究
b) Textual and Multimedia analysis 文本及多媒体分析
c) Sports Scouting
d) Medical outcomes analysis
e) Scientific
f) Web surfing behavior 上网行为方式研究
十七．数据挖掘的任务
a) 预测模型（例如“预测”）
b) 描述模型（例如“分类分析”）
c) 模式及相关的规则
十八．预测模型
a) 在“训练数据集”上建立的由“事例”组成的一个模型
b) 这个模型随后将使用一个“检测数据集”来验证此模型是否可用及易用程度。
c) 每个“事例”又是由两部分组成：
i. “输入变量”（输入的数据，“独立”的变量）
ii. “目标变量”（例如“响应”，“输出”）
d) “输出变量”的类型
i. 监督分类
ii. 线性回归
iii. “存活度”分析（随着时间存活度分析）
e) 连贯性输出
i. 卫生保健输出（医疗开支）
ii. 连续性管理（一个ATM机中剩余的金额或者一个分行金库中的余额）
iii. 商业退货管理（货物从购买到退货之间的时间差）
十九．目标市场（Target Marketing）
i. 事例：比如“客户”，“住房”
ii. 输入：地理信息系统，金融系统
iii. 目标：对一个请求的响应
iv. 操作：目标定位一个在未来的竞争中可以快速响应的客户部分
二十． CRM
a) 事例：当前存在的客户
b) 输入：购买历史记录，货物/服务使用记录，统计数据
c) 目标：调整品牌，取消，发现缺点
d) 操作：客户忠诚度提升
二十一． Credit Scoring信用等级评估
a) 事例：过去的申请者
b) 输入：应用程序生成的资讯，信用报告
c) 目标：收费，信用不良记录，收回信用
d) 操作：接受或拒绝未来的信用申请者
二十二．在数据挖掘时处理数据时可能遇到的困难
a) 数据错误
i. 不正确的数值
ii. 不相关的数据
iii. 丢失数据
1. 只使用那些数据完整的记录集来分析
2. 使用合理的数值填充到丢失数据的位置
iv. 不完整的数据
二十三．用于数据挖掘的主要软件
a) SAS的Enterprise Miner
b) SPSS的Clementine
c) IBM的 Intelligent Miner
d) 近百个其它的第三方处理包
二十四． MS Analysis Service 浅析
a) MS Analysis Service包含联机分析处理 (OLAP) 和数据挖掘
b) Analysis Services 将数据仓库中的数据组织成包含预先计算聚合数据的多维数据集，以便为复杂的分析查询提供快速解答。Analysis Services 使您可以从多维 (OLAP) 和关系数据源这两者创建数据挖掘模型。还可以对这两类数据应用数据挖掘模型。
目前市场上常见的OLAP软件
OLAP Servers:
Hyperion Essbase (version 4.0.1 or higher)
Microsoft Analysis Services SQL 2000 (service pack 1 or higher, service pack 3 recommended)
IBM DB2 OLAP Server CShowCase AS/400 OLAP Server (version 3.5 or higher)
Cognos PowerPlay (version 7.3 or higher)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航