数据仓库基础概念
2015-11-04 16:31
330 查看
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
建立步骤
1)收集和分析业务需求
2)建立数据模型和数据仓库的物理设计
3)定义数据源
4)选择数据仓库技术和平台
5)从操作型数据库中抽取、净化、和转换数据到数据仓库
6)选择访问和报表工具
7)选择数据库连接软件
8)选择数据分析和数据展示软件
9)更新数据仓库
数据转换工具
1)数据转换工具要能从各种不同的数据源中读取数据。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同类型数据源为输入整合数据。
4)具有规范的数据访问接口
5)最好具有从数据字典中读取数据的能力
6)工具生成的代码必须是在开发环境中可维护的
7)能只抽取满足指定条件的数据,和源数据的指定部分
8)能在抽取中进行数据类型转换和字符集转换
9)能在抽取的过程中计算生成衍生字段
10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11)必须对软件供应商的生命力和产品支持能力进行仔细评估
主要数据抽取工具供应商:Prismsolutions.Carleton’sPASSPORT.InformationBuildersInc.’s
EDA/SQL.SASInstituteInc.
关键问题
一般问题 (不完全是技术或文化,但很重要) 包括但不限于以下几点:
业务用户想要执行什么样的分析?
你现在收集的数据需要支持那些分析吗?
数据在哪儿?
数据的清洁度如何?
相似的数据有多个数据源吗?
什么样的结构最适合核心数据仓库 (例如维度或关系型)?
技术问题包括但不限于以下几点:
在你的网络中要流通多少数据?它能处理吗?
需要多少硬盘空间?
硬盘存储需要多快?
你会使用固态还是虚拟化的存储?
企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
建立步骤
1)收集和分析业务需求
2)建立数据模型和数据仓库的物理设计
3)定义数据源
4)选择数据仓库技术和平台
5)从操作型数据库中抽取、净化、和转换数据到数据仓库
6)选择访问和报表工具
7)选择数据库连接软件
8)选择数据分析和数据展示软件
9)更新数据仓库
数据转换工具
1)数据转换工具要能从各种不同的数据源中读取数据。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同类型数据源为输入整合数据。
4)具有规范的数据访问接口
5)最好具有从数据字典中读取数据的能力
6)工具生成的代码必须是在开发环境中可维护的
7)能只抽取满足指定条件的数据,和源数据的指定部分
8)能在抽取中进行数据类型转换和字符集转换
9)能在抽取的过程中计算生成衍生字段
10)能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11)必须对软件供应商的生命力和产品支持能力进行仔细评估
主要数据抽取工具供应商:Prismsolutions.Carleton’sPASSPORT.InformationBuildersInc.’s
EDA/SQL.SASInstituteInc.
关键问题
一般问题 (不完全是技术或文化,但很重要) 包括但不限于以下几点:
业务用户想要执行什么样的分析?
你现在收集的数据需要支持那些分析吗?
数据在哪儿?
数据的清洁度如何?
相似的数据有多个数据源吗?
什么样的结构最适合核心数据仓库 (例如维度或关系型)?
技术问题包括但不限于以下几点:
在你的网络中要流通多少数据?它能处理吗?
需要多少硬盘空间?
硬盘存储需要多快?
你会使用固态还是虚拟化的存储?
相关文章推荐
- 开源MySQL高效数据仓库解决方案:Infobright详细介绍
- 基于数据仓库的证券CRM系统建设
- 异地容灾系统和数据仓库中数据同步的设计及其关键技术实现
- 深入了解当前ETL中用到的一些基本技术
- 维度表和事实表
- 星型模型和雪花模型 .
- 关于ETL
- Infobright高性能数据仓库特点
- 数据仓库构建步骤(上)
- 数据仓库构建步骤(下)
- 急聘数据仓库工程师2人——长春
- 发现数据对象--数据库开发的关键
- Java Content Repository
- Web数据挖掘综述
- 《数据仓库设计》 中英文对照——介绍
- 《精通数据仓库设计》中英对照_第2章
- 关于拉链表
- oracle9i install and uninstall
- 今天你BI了么?
- EAI项目所面临的企业环境及EAI做什么