您的位置:首页 > 其它

关于RapidMiner的几点特征

2015-07-01 18:15 162 查看
使用数据挖掘的方法分析大量的数据通常被认为是属于专家们做的事情。这些事情多少还是会有些复杂的分析流程,就像那些昂贵到令人惊讶的软件解决方案,比如产品销售数据的预测。由于项目的复杂性,经常需要各种技术支持,导致了长期以来使用数据挖掘产品会有如此昂贵的license费用。也许有了开源的RapidMiner之后,每个人都会怀疑数据挖掘的软件方案是不是真的这么昂贵和难于学习。

RapidMiner源于德国多特蒙得大学Katharina Morik博士领导的一个人工智能的子项目Yet Another Learning Environment" (YALE),随着项目的成熟,自2001年启动以来已有超过五十万人次的下载量,其中有数千是需要合适的数据挖掘项目及服务商的企业用户。RapidMiner的开发者基于这种需求开发了Rapid-I。在开发企业版过程中,YALE更名为RapidMiner,并赋予了它全新的含义。

Rapid-I在国家(德国)举办的“start2grow”竞赛中获得第四名,在欧洲商业开源IT竞赛中夺冠。这些都为RapidMiner以及它的企业版及Rapid-I本身的发展提供了良好的基础。而RapidMiner也连续三次在有名的数据挖掘网站“KDnuggets”被推举为最常用开源数据挖掘工具,在与包括专业解决方案在内的其他30余款的比较中,RapidMiner表现十分优异。

灵活性与功能性

是什么让RapidMiner成为全球开源数据挖掘软件的领导者?据开姆尼茨大学在2007年国际数据挖掘竞赛期间发表的评测报告显示,RapidMiner在所有的开源数据挖掘工具当中,其技术水平与适用性表现都非常好。这也反映了软件的用户友好度与成熟的数据挖掘技术的统一一直是开发的工作重心。

这种组合为RapidMiner带来了在定义分析流程阶段的高度灵活性,正如我们将会看到的,程序可以从一大堆任意嵌套操作符及操作符树或流程图中产生。这种程序的架构在内部以xml的方式定义,并通过在图形用户界面中进行开发。在这种背景下,RapidMiner会持续检查当前的开发程序是否符合语法,并在出现问题时自动给出建议。这是通过一种被称为元数据转换的功能实现的,它能在设计阶段就将开发程序转换为元数据。通过这样的方式使得程序产生的结果在开发阶段就能预见,避免出现我们不想要的结果。除此之外,RapidMiner提供了断点的功能,以便可以检查和分析每一个过渡状态。可执行的操作符集合可以以块的方式组织起来,这样就可以为接下来的流程中再次调用。因此,RapidMiner与开发环境相结合的强大之处,用编程语言的话来说就是:简单的可视化编程。模块化的组织方式也有可以最大细粒度地检查内部执行过程这样的优势。分析人员利用这样的方式查看交叉验证的内部处理步骤和等价预处理的效果,而这是其他的数据挖掘工具无法做到的,它们往往会过度乐观而导致评估出错。

Rapid共含有超过五百个操作符用于数据分析,比如用于数据处理、数据建模和其他数据挖掘层面的输入输出操作符。还有用于文本挖掘,web挖掘,语意分析,决策支持和时间序列的分析及预测和超过二十个关于可视化的多维数据模型的方法。此外,weka工具箱里所有的学习方法和加权因子也完美地被移植到了RapidMiner中来,这也就意味着,weka中的所有功能,此时此刻已经成为了RapidMiner功能的一个部分。

可扩展性

2009年10月,RapidMiner4.6版被发布。2009年底,发布了经过全面修订的5.0版。这两个版本间的变化非常明显,除了依然强大的功能之外,5.0在可扩展方面做了大量的的优化。长期以来,RapidMiner的主要特征之一就是支持多种数据视图的概念型关系数据库。现在,这种概念已经被RapidMiner进一步细化,为组织多种视图提供了可能。这样,数据转换就可以快速完成,数据拷贝也就变得不再那么重要了。相比之下,RapidMiner通过这样的方式消耗的内存要少得多,只要配置正确,RapidMiner处理百亿级别的数据集简直就是小事一桩。随着功能的进一步提升,RapidMiner对邮寄营销、减少客户流失、提升用户忠诚度、效益最大化地保留客户等应用方面都有很好的支持,新的聚合功能,丰富的日期和时间处理,新增属性的简化编辑,其中包括用于数据挖掘过程的自动参数优化,不仅提升了数据的转换与分析能力,同时让程序的操作变得简单了许多。最新版本的RapidMiner5.0不仅在图形用户界面上做了全面改动,也增加了清晰的数据流程图,而不仅仅只显示运算符树。

花了几晚上翻译过来的,水平有限。大家发现哪有错的地方,请指正哈。

分享 收藏0 支持0 反对0
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: