您的位置:首页 > 其它

pentaho学习小结

2011-02-19 12:24 579 查看
看了这么长时间的pentaho,我觉得有必要做一下总结:
首先,有关pentaho我重点接触到了其中如下三个子工具:
     kettle:一个ETL工具(数据抽取,转换,加载),具体来说是对数据进行抽象提取,以达到我们想要展现的形式,当然也可以实现数据的迁移。它有两种脚本文件:job和transform
transform如下所示,即为一个简单的转换过程(获取日期->转换为YYYY-MM-DD的格式->在表中由该日期作为查询条件->将查询结果输出到文件中):



job中可包含一个转换, 负责完成整个工作流的控制。如下所示:



     report designer:一个报表设计器,可以在pentaho其他地方调用它生成的prpt文件。我现在用pentaho studio可以调用无数据库连接的基本报表,若有数据库连接还要做一些配置(这点一直没研究出来)。
report designer可以根据数据生成图表进行分析。下图为部分报表内容:



     pentaho studio:一个设计和管理工具,被集成在eclipse中,用来建立action sequence,该xaction文件内容其实就是一个xml文件,此插件用于可视化对xml文件进行编写。在pentaho studio中可以查看pentaho solutions,pentaho solutions其实就是在user console里运行的一些Demo,查看这些Demo有助于对pentaho项目的理解。注:如果在action sequence中需要执行发邮件操作,还需对system文件夹下的一些文件进行修改配置(研究了很久才看懂)。
接下来,通过看书和上网查资料,对一些概念有了新的认识。 1.数据仓库。          一直不明白他和传统的关系型数据库有什么区别,也有人说广义上他们是一样的。后来才知道数据仓库在设计时有时是有意引入冗余,为了便于进行数据分析(当然我们平日的业务数量还不足以接触到数据仓库)。传统的数据库主要是为了解决联机事务处理,而数据仓库是为了进行数据分析。在数据库已经大量存在的情况下,通过引入数据仓库可以帮我们进一步解决分析数据资源和决策需要的问题。数据仓库内的数据一般只能添加,不进行修改。最后需要指出的是,目前大多数的数据仓库还是用传统的关系型数据库来管理的。 2.多维分析技术。          olap:联机分析技术          mondrian:纯Java开发的OLAP服务器,通过该服务器,用户可以对存储在关系数据库中的大型数据集进行交互分析。仅仅是一个OLAP引擎,不是数据仓库服务器。 3.数据挖掘。          从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 4.ERP。          企业资源管理计划,ERP是管理公司日常事务的平台,负责在管理运行中提供基本数据,而BI用来分析这些数据。 对于BI的定义如下:商业智能为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。谈谈我对商业智能的理解吧,通过对数据库(或是数据仓库)中的数据的提取、转换,展现出一段时间内公司业务运行情况(通常该表现可以是图表形式),之后分析结果可以通过电子邮件将公司发展情况分发到各部门。一些BI系统还可以通过当前的情况对企业未来发展作出规划和预测。


 本文用菊子曰发布
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: