您的位置:首页 > 运维架构 > 网站架构

数据仓库的基本架构

2016-08-22 17:01 204 查看
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持( Decision Support)。

数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、 数据仓库、 数据应用。



数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL (抽取 Extra, 转化 Transfer, 装载 Load)的过程, ETL 是数据仓库的流水线,数据仓库日常的管理和维护工作的大部分精力就是保持 ETL 的正常和稳定。

数据仓库中的各个模块:

数据来源:点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站 Outcome 这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。

数据存储:源数据通过 ETL 的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,并且导入的数据必须经过整理和转换使其面向主题。

数据聚合:这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总 Pageviews、 Visits、 Unique Visitors 等汇总数据,也可以是 Avg. time on page、 Avg. time on site 等平均数据,这些数据可以直接地展示于报表上。

多维数据模型:多维数据模型提供基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询和细分。所以多维数据模型的应用一般都是基于联机分析处理( Online AnalyticalProcess, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型:指的是基于某些数据分析和决策支持而建立起来的数据模型,比如用户评价模型、关联推荐模型、 RFM 分析模型等,或者是决策支持的线性规划模型、库存模型等。

数据仓库的数据应用:

报表展示:报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。

即席查询:席查询提供了足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据,并提供导出到 Excel 等外部文件的功能。

数据分析:基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了多维分析的数据基础。

数据挖掘 :基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如 SAS、 SPSS 等提供数据接口。

元数据管理:元数据( Meta Date),其实应该叫做解释性数据,即数据的数据。

主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库( Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: