您的位置:首页 > 其它

数据仓库基础

2016-07-18 09:48 176 查看

1 数据仓库

数据库(针对OLTP) :OL即online,T即transaction事物,即processing处理。

即操作性型数据库,增删改查频繁,但是操作的数据量小。

数据仓库(针对OLAP):OL即online,A即Analytical分析,即processing处理。

即分析型数据库,查询频繁,插入较频繁,操作一个集合。

1.1 数据仓库的含义

数据仓库是面向主题的,综合的,不同时间的,稳定的数据集合。用以支持经营管理过程中的决策制定过程。

1.1.1 面向主题的(重点)

传统数据库应用按照业务处理流程来组织数据,目的在于提高处理的速度。主题是在一个较高层次将数据进行归类的标准,满足该领域分析决策的需要。

例:将的信息存在客户主题域,将账务信息存在账务主题域。

1.1.2 集成性的

数据仓库中的数据来自于多个应用系统,不仅要统一原始数据中的所有矛盾,如同名异义,异名同义等,而且要将这些数据统一到数据仓库的数据模式上来。

例:

同名异义:相同字段中数据代表的意思可能不同,比如sex字段可能是0代表女,1代表男;也有可能是1代表女0代表男。

异名同义:数据可能抽取自多张表,但是表中相同意思的字段可能不同。比如同样是学生名在字段中可能是studentName或者userName。

表统一:可能是多张表抽取来合成一张表,也可能一张表拆分成多张表。(经过处理,关联,转换来的)

1.1.3 随时间变换的

数据仓库随着时间变化要不断的增加新的内容。由于数据仓库常常作趋势预测分析,所以需要保留足够长的历史数据。

操作型数据库,保留历史数据是为了回退,比如客户套餐回退等。而不是为了分析

分析型数据库,保留足够长时间的历史数据是为了分析。数据量是操作型数据库的几倍,几十倍甚至更多。这样才能做趋势分析。

1.1.4 稳定的

数据仓库的这种稳定性指的是数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数据查询,一般不对数据进行修改。只会不断的添加数据,除非元数据说数据错了。

操作数据库update一次在数据仓库中体现为两条。

例:昨天有10元,今天消费5元,数据库数据状态为5元,数据仓库中存昨天有10元,今天有5元。

1.2 数据库与数据仓库的区别

数据库
数据仓库
系统目的

支持日常操作

支持管理需求、获取信息

使用人员

办事员、DBA、数据库专家

经理、管理人员、分析专家

数据内容

当前数据

历史数据、派生数据

数据特点(粒度)

细节的

综合的或提炼的

数据库设计

基于ER图

基于星型模式、雪花模式

1.3 后台预处理(ETL)

抽取:从数据源抽取所需的数据。

转换:对抽取出的数据进行一系列的转换,以满足数据仓库主题数据内容与质量上的要求。

装载:将转换后的数据装载入数据仓库

1.4 数据仓库的四个层次体系结构

1.4.1 数据源

数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。

1.4.2 数据的存储与管理

数据的存储与管理是整个数据仓库的核心。在现有的各业务系统的基础上,对数据进行抽取,清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据

1.4.3 OLAP服务器

对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度多层次的分析,发现数据趋势。

1.4.4 前端工具与应用

前端工具主要包括各种数据分析工具,报表工具,查询工具,数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。

1.5 粒度

粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小级别就越低;粒度越大级别就越高,粒度越大。

例:福州地区总人数(大),福州各个地区人数(小)

1.6 数据集市

数据集市(DataMart)是完整的数据仓库的一个逻辑子集。

例:福建省的账务是一个数据仓库,福州市的业务就是一个数据集市
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: