您的位置:首页 > 运维架构

IBM BigInsights 4.1 发布了 ,对Hadoop的支持更加深入!

2016-07-11 10:49 453 查看
IBM BigInsights 是实现IBM大数据战略的重要旗舰产品,下文将介绍刚发布的4.1版本所包含的功能和组件。

IBM BigInsights
由两个部分组成,分为开源部分和IBM增值部分,由此组合成5个不同的软件包提供给市场需求不同的客户使用。



在上图中蓝线之下的部分是IBM Open Platform with Apache Hadoop 版本,它包含了由Apache Hadoop社区发布的最新模块。刚发布的IBM BigInsights 4.1版本包含了以下的内容:

Hadoop 2.7.1
HBase 1.1.1
Hive 1.2.1
Knox 0.6.0
Oozie 4.2.0
Pig 0.15.0
Slider 0.80.0
Solr 5.1.0
Spark 1.4.1
Sqoop 1.4.6
ZooKeeper 3.4.6
Kafka 0.8.2.1 (新加)
Ambari 2.1
Avro 1.7.7
Flume 1.5.2

用户可以很方便地使用Apache Ambari 2.1来安装部署IBM Open Platform with Apache Hadoop 4.1,服务也可选择Apache社区支持(免费)或购买IBM原厂服务。

新版本可以运行的硬件和操作系统平台更多了:

X86-64平台支持

Red Hat Enterprise Linux 7

Red Hat Enterprise Linux 6

IBM Power (新支持)

Red Hat Enterprise Linux 7

当然,对于将Hadoop引入到企业,IBM不仅只用到开源部分,没有金刚钻,不揽瓷器活!以下内容介绍IBM 对Hadoop 增值部分

金刚钻之一 : BigSheets

企业内分析数据最常使用的工具其实是电子表格,来到大数据时代,怎能轻易放弃这么好用的工具?IBM提供BigSheets可以轻易将存在Hadoop里面的数据进行可视化展现,使用习惯也是类似电子表格方式,过滤行?透视表?合并不同表格列?然后选择图形展现:柱状图?饼图?热点图?地理图?轻松搞定!它自动变成了MR跑出结果!



BigSheets表格处理功能



饼状图



标记云图



地理信息集成图
金刚钻之二:BigSQL

企业传统上使用SQL语言访问数据仓库得到分析结果,在企业引入Hadoop架构变成了分布式存储,并且成为潮流时,IBM也顺势将其企业级MPP的DB2数据库引擎移植到了Hadoop平台上,这个SQL查询优化器引擎在国内外可是久经考验,出色性能得到公认,目前是开源社区技术拍马也难追的,没有几十年技术沉淀是学不会的!



金刚钻之三:BigR

R语言被越来越多的应用在企业内进行数据统计和挖掘,它具备以下优点:

交互式 — 输入命令后可立刻看到结果。
简单 — 从安装并开始使用它的那一刻起,就可以轻松获得有用的结果。
全面 — R 利用了庞大的统计分析软件库,这些软件库与软件包一起成长。
可扩展 — 可以轻松地创建自己的功能库并与 R 社区共享它们。

R 还提供了各种工具,可使用它们来将数据轻松导入软件包以进行分析。但缺点也明显,天生不支持在分布式的部署,因此有很多项目尝试将R引入到Hadoop领域。IBM实现的方式就是利用Big R技术将R算法集成如Hadoop平台内。IBM BigR的最大特色是不需重写R程序,又充分利用的Hadoop平台的可扩展性,还可以直接在BigSQL里面使用SQL来调用R算法!4.1版本还把SystemML-IBM Watson机器学习算法修改后也可以直接在BigR里面运行了!



金刚钻之四:文本分析

大数据其中重要的应用就是要分析机器日志和社交媒体的数据,里面有大量的自然语言语义需要分析,IBM在海外和推特(Twitter)是合作伙伴的关系,可以轻松将其社交媒体数据放入BigInsights进行分析。需要用到的重要的工具就是Text Analytics模块,IBM提供了一个图形化管理的工具,可以便捷地定义抓取规则。当然,里面也包含一系列预定义好的社交媒体接口,无需重复工作,可以快速开展工作。



由以上IBM给Hadoop社区增值的四大金刚钻组合出主要的两个付费版本:给数据分析员使用的版本就是含BigSheets和BigSQL模块的IBM BigInsights Analyst 产品包;给数据科学家使用的版本是含四个金刚钻的IBM BigInsights Data Scientist
产品包。

另外对于Hadoop平台的有力补充,在IBM BigInsights Enterprise Management
包内含有另外两个特别的模块:GPFS-FPO分布式文件系统和Platform Symphony任务调度和多租户管理模块。前者是可以替代HDFS的文件系统,后者可以有力补充YRAN的一些局限性,我们将在未来的文章内详细介绍。

BigInsights 4.1在安全方面也做了重大改进,例如:

除利用LDAP, Knox 也可以对PAM支持
可以自动和手工设置Kerberos

看完了是否心动?IBM提供学习环境,免费下载Quick Start产品包吧,其中Quick Start产品包除了包含开源的IBM Open Platform for Apache Hadoop 外,BigSheets、BigSQL、BigR、Text Analytics功能都在里面!

下载试用链接:

http://bigdata.evget.com/product/385.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: