您的位置:首页 > 其它

数据挖掘学习笔记三

2017-05-02 17:30 218 查看

数据挖掘学习笔记三**

数据仓库模型设计及数据仓库建立



数据仓库系统的设计与数据库系统设计的区别

数据库系统设计数据仓库系统设计
面向的处理类型面向应用
应用需求比较明确
系统设计的目标事务处理的分析性,安全性,高效性
数据来源业务操作员的输入
系统设计的方法需求驱动
数据仓库设计分为两个部分

数据仓库模型设计

概念模型设计

逻辑模型设计

物理模型设计

数据装载接口的设计

相关概念

数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。

概念模型描述的是客观世界到主观世界的映射。

逻辑模型描述的是主观世界到关系模型的映射。

物理模型描述的是关系模型到物理实现的映射。

数据仓库的概念模型设计

两种方法:E-R模型面向对象的分析方法

ER模型:



E-R图

长方形表示实体,即主题.

椭园形表示主题的属性

无向边:把主题与其属性连接起来.

有向边:表示主题之间的联系.

实例:



面向对象的分析方法



是对某种类型事物的抽象,将这类事物所有的共同特征集中起来。如:学生类,教师类

类之间存在三种关系:继承,包容关联



数据仓库的逻辑模型设计

1)分析主题、确定当前要装载的主题

2)确定数据粒度的选择

3)确定数据分割的策略

4)增加导出字段

导出数据是事先在原始数据的基础上进行总结或计算而生成的数据.



5)定义关系模式

​ 定义各主题的信息表,表之间依靠公共码联系.



6)定义记录系统

指明数据仓库中关系表各字段来源于哪个业务DB.



数据仓库的物理模型设计

存储结构

分布式存储方式

​ 采用多个节点分布的方式来存储数据.节点之间通过互连I/O来进行相互通信.

集中式数据存储方式

​ 将现有的存储区域网或网络附加存储系统作为服务器的存储部分.每个节点通过交换机直接访问所有的数据而不需要经过其他节点.

索引策略

B-Tree索引、位图索引、广义索引、连接索引

数据存储策略

1.合并表:将多个表中相互关联的记录相邻存储.



2.建立数据序列:数据在磁盘上分布在不同数据盘块上,即物理盘块上,按照处理顺序放在一个或多个物理块上.

3.按列存储:一张表中同一列的数据相邻存储.

4.分割表的存储:把大表分割存储,提高访问效率.

数据仓库的建立过程

需求分析

需求的分析过程贯穿在整个设计过程.数据仓库建立在原有的运行系统之上,因此,要与原有系统项目负责人,部门管理人员,DSS分析员,技术人员交流.

需求定义文档的提纲

1)绪论

2)总体需求描述

3)具体需求

4)指标及维度

5)其他需求

6)用户期望

7)用户参与

8)综合实施计划

数据路线

1.概念模型设计

2.逻辑模型设计

3.物理模型设计

4.数据装载接口设计.

技术路线

1.操作型基础构造:包括:人员, 流程, 培训和管理软件.

2.物理基础构造

应用路线

OLAP模型设计

数据挖掘模型设计

信息传递

数据仓库部署

运行维护

提高数据仓库性能

1)提高I/O性能.

2)缩小查询范围

<
b01c
li>划分粒度

分割数据表

建立索引

3)采取并行优化技术

4)选择适当的初始化参数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: