数据挖掘学习笔记三
2017-05-02 17:30
218 查看
数据挖掘学习笔记三**
数据仓库模型设计及数据仓库建立
数据仓库系统的设计与数据库系统设计的区别
数据库系统设计 | 数据仓库系统设计 |
---|---|
面向的处理类型 | 面向应用 |
应用需求 | 比较明确 |
系统设计的目标 | 事务处理的分析性,安全性,高效性 |
数据来源 | 业务操作员的输入 |
系统设计的方法 | 需求驱动 |
数据仓库模型设计
概念模型设计
逻辑模型设计
物理模型设计
数据装载接口的设计
相关概念
数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。
概念模型描述的是客观世界到主观世界的映射。
逻辑模型描述的是主观世界到关系模型的映射。
物理模型描述的是关系模型到物理实现的映射。
数据仓库的概念模型设计
两种方法:E-R模型;面向对象的分析方法.ER模型:
E-R图
长方形表示实体,即主题.
椭园形表示主题的属性
无向边:把主题与其属性连接起来.
有向边:表示主题之间的联系.
实例:
面向对象的分析方法
类是对某种类型事物的抽象,将这类事物所有的共同特征集中起来。如:学生类,教师类
类之间存在三种关系:继承,包容和关联
数据仓库的逻辑模型设计
1)分析主题、确定当前要装载的主题2)确定数据粒度的选择
3)确定数据分割的策略
4)增加导出字段
导出数据是事先在原始数据的基础上进行总结或计算而生成的数据.
5)定义关系模式
定义各主题的信息表,表之间依靠公共码联系.
6)定义记录系统
指明数据仓库中关系表各字段来源于哪个业务DB.
数据仓库的物理模型设计
存储结构分布式存储方式
采用多个节点分布的方式来存储数据.节点之间通过互连I/O来进行相互通信.
集中式数据存储方式
将现有的存储区域网或网络附加存储系统作为服务器的存储部分.每个节点通过交换机直接访问所有的数据而不需要经过其他节点.
索引策略
B-Tree索引、位图索引、广义索引、连接索引
数据存储策略
1.合并表:将多个表中相互关联的记录相邻存储.
2.建立数据序列:数据在磁盘上分布在不同数据盘块上,即物理盘块上,按照处理顺序放在一个或多个物理块上.
3.按列存储:一张表中同一列的数据相邻存储.
4.分割表的存储:把大表分割存储,提高访问效率.
数据仓库的建立过程
需求分析需求的分析过程贯穿在整个设计过程.数据仓库建立在原有的运行系统之上,因此,要与原有系统项目负责人,部门管理人员,DSS分析员,技术人员交流.
需求定义文档的提纲
1)绪论
2)总体需求描述
3)具体需求
4)指标及维度
5)其他需求
6)用户期望
7)用户参与
8)综合实施计划
数据路线
1.概念模型设计
2.逻辑模型设计
3.物理模型设计
4.数据装载接口设计.
技术路线
1.操作型基础构造:包括:人员, 流程, 培训和管理软件.
2.物理基础构造
应用路线
OLAP模型设计
数据挖掘模型设计
信息传递
数据仓库部署
运行维护
提高数据仓库性能
1)提高I/O性能.
2)缩小查询范围
<
b01c
li>划分粒度
分割数据表
建立索引
3)采取并行优化技术
4)选择适当的初始化参数
相关文章推荐
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(二)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(五)
- 数据挖掘学习笔记(三)数据预处理
- 【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)
- 【数据挖掘概念与技术】学习笔记2-认识数据
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- 数据挖掘:概念与技术 学习笔记 第一章
- R语言与数据挖掘学习笔记
- 数据挖掘概念与技术学习笔记(1)
- 【数据挖掘概念与技术】学习笔记5-数据立方体技术
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(四)
- 数据挖掘(学习笔记)-初识数据挖掘
- 《SQL Server 2005数据挖掘与商业智能完全解决方案》学习笔记(1/12-3/12)
- R语言与数据挖掘学习笔记
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(一)
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(四)
- 数据挖掘学习笔记(一)
- 数据挖掘学习笔记(一)
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- 【数据挖掘概念与技术】学习笔记1-引论