您的位置:首页 > 大数据

将 SPSS 分析技术应用于大数据

2014-10-31 14:32 330 查看
试用SPSS with IBMNetezza、InfoSphereBigInsights
和InfoSphere Streams执行大规模分析
了解SPSS®中处理大数据的新功能。现在可以对SPSS分析资产轻松地进行修改,以便连接到不同的大数据来源,它们还可以在不同的部署模式(批处理或实时模式)下运行。SPSS平台的组件现在可与IBMNetezza、InfoSphere®BigInsights™和InfoSphereStreams
结合使用,以支持分析师对大数据使用强大的分析工具。
数十年来,IBMSPSS
为统计人员和数据科学家提供了强大的工具。多年来,SPSS平台已发生了演变,支持数据挖掘流程的所有阶段,包括模型开发、模型部署和模型刷新。在过去两年,SPSS中增加了处理大数据的新功能。本文将介绍SPSS如何与IBM大数据产品组合的3个组件相集成:Netezza、InfoSphereBigInsights
和InfoSphereStreams。
SPSS平台概述
与大数据集成的SPSS软件组件:
SPSSModeler
SPSSAnalytic Server
SPSSCollaboration and Deployment Services
SPSSAnalytic Catalyst
SPSSModeler 是一个数据挖掘工作台,用于分析数据和部署分析资产。通用术语分析资产 用于描述解决某个业务问题的一个操作集合。数据科学家在描述使用数据挖掘工具开发的资产时,通常会使用术语模型 或预测模型。除了模型之外,SPSS分析资产还可包含数据准备步骤和业务规则。图1显示了SPSSModeler
中开发的一个示例分析资产。在此示例中,我们使用一个决策树模型来执行贷款违约预测。分析资产执行以下操作:
合并来自3个历史数据源的数据
使用一个 Type 节点识别用于模型预测的目标变量(MortgageDefault)
构建一个基于C5.0决策树算法的模型
选择具有积极的贷款违约预测的记录
将结果显示在一个表中
图1.SPSS
Modeler 中开发的分析资产

SPSSModeler是一个可视编程环境。分析资产可通过连接画布上的可视编程节点来创建;在运行时,节点按照连接箭头的方向执行。节点可按照相关功能进行组织:Sources、RecordOperations、FieldOperations、Modeling 等。Modeling 选项卡显示用于生成模型的算法(参见图2)。SPSS发布了27个建模算法和整套的节点,对一个数据集运行多种算法并选择最佳的节点。除了所描述的可视节点之外,如果分析师希望扩展SPSSModeler
的基本功能,那么他们可以使用SQL函数、R模型和自定义开发的节点。
图2.包含生成模型的算法的Modeling选项卡

分析师使用历史数据来构建模型。创建模型后,分析师会修改分析资产,以便对操作数据进行评分(参见图3)。我们不再需要MortgageDefault
数据源,因为它包含历史数据。我们删除了 Type 和 DecisionTree 算法节点。C5决策树算法节点用于构建模型。创建的模型用金块图标表示(MortgageDefault)。分析师将 Table 节点替换为一个 Export 节点,这会将数据写入一个数据库表中。现在可以将这个分析资产用于对新贷款申请进行批量或实时评分。
图3.包含 Type、DecisionTree 并删除了MortgageDefault
数据源的已修改模型

用于大数据的第二个SPSS组件是SPSSAnalytic
Server。它管理对Hadoop数据源的访问,并设计一个Modeler流在Hadoop中的运行。Modeler操作以MapReduce作业的形式在Hadoop中运行,得到一个提供了高性能和高可伸缩性的解决方案。
用于大数据的下一个SPSS组件是SPSSCollaboration
and Deployment Services (C&DS)。C&DS执行两种主要功能:
用作分析资产的存储库。在将某项资产存储在存储库中后,就可以使用它来设计批处理作业。该存储库还提供了与InfoSphereStreams
的连接,以便实时更新SPSS模型。
提供一个接口来计划批处理作业,建模使用数据库和Hadoop数据源的刷新作业。
SPSSAnalytic Catalyst
通过一种易于使用的Web接口来执行统计分析。它是为可能没有深入理解数据挖掘的业务用户设计的。SPSSAnalytic
Catalyst 向选定的数据源应用多种算法和统计分析技术。结果可以通过可视元素和纯语言解释来呈现。图4显示了一个SPSSAnalytic
Catalyst 项目的示例输出。
图4.SPSS
Analytic Catalyst 返回对某个数据源的分析的结果

点击查看大图
SPSSAnalytic Catalyst
分析在Hadoop中运行。与Hadoop中现有数据的数据源连接由SPSSAnalytic
Server 提供。SPSSInfoSphereBigInsights
的集成 一节中描述的所有数据源都可以用在SPSSAnalytic
Catalyst 中。较小的数据集可通过Web界面加载到SPSSAnalytic
Catalyst 中。一个Hadoop发行版是安装SPSSAnalytic
Catalyst 的一个必要软件。安装之后,无需额外的集成即可对大数据执行分析。
接下来,让我们深入讲讲SPSS与Netezza、InfoSphereBigInsights
和InfoSphereStreams
的集成。
SPSS与Netezza的集成
Netezza是一个高性能数据仓库。SPSS和Netezza的集成是SPSS的一种典型的大数据集成场景。存储在Netezza中的数据可用于模型构建、评分和模型刷新。
SPSSModeler
通过Netezza所提供的一个开放数据库连接(ODBC)驱动程序连接到Netezza。Netezza中存储的数据可用作一个SPSSModeler
流的输入或输出数据源。SPSSModeler
支持对Netezza执行 SQL推回:在运行时,Modeler流被转换为SQL并在Netezza中执行。SQL推回操作不需要手动将SPSS代码导入Netezza中。导入由SPSS平台自动处理。
除了SQL推回操作之外,SPSS为Netezza提供了一个评分适配器,它允许使用无法转换为SQL的SPSS节点作为Netezza中的用户定义的函数(UDF)。
SPSSModeler
还支持在Netezza数据库中进行挖掘。对于SQL推回操作和评分适配器,SPSSModeler
将会生成代码并在Netezza中运行它。数据库中挖掘节点由Netezza提供并由SPSS调用。所有描述的实现的最终结果都是让性能得到了提升,因为数据无需在Netezza和SPSS服务器之间移动。
用于Netezza数据库中挖掘的建模节点如图5中所示。一些模型可同时用于SPSS和Netezza中,而其他模型是Netezza所独有的。Netezza中的数据库中挖掘节点通过安装INZA包来启用,该包包含在Netezza中。默认情况下,在SPSSModeler
中会提供Netezza数据库中数据挖掘的用户界面:这些节点可通过选择 Tools>
Options > Helper Applications 显示在模型面板中。
图5.用于Netezza数据库中数据挖掘的建模节点

SPSS与InfoSphereBigInsights
的集成
InfoSphereBigInsights
是一个企业级的Hadoop发行版。类似于Netezza,与InfoSphereBigInsights
的集成可用在数据挖掘流程的所有阶段。SPSS与InfoSphereBigInsights
的集成由SPSSAnalytic
Server 启用。SPSSAnalytic Server
隐藏了访问Hadoop数据源的复杂性,支持分析师对Hadoop中存储的数据应用了SPSSModeler
中提供的所有数据挖掘操作。在SPSSAnalytic
Server 中配置后,可通过Modeler中的一个来源节点对Hadoop数据源进行轻松的访问(参见 6)。SPSSAnalytic
Server 支持HDFS和HCatalog数据源。HCatalog被用作NoSQL数据源的一个网关,这些数据源包括Hive、HBase、Accumulo、JSON和XML。
InfoSphereBigInsights Quick Start Edition
InfoSphereBigInsights Quick Start Edition
是IBM基于Hadoop的InfoSphereBigInsights
产品的一个可下载的免费版本。使用QuickStart
Edition,您可尝试IBM构建的功能来提高开源Hadoop的价值,比如BigSQL、文本分析和BigSheets。引导式学习可让您的学习体验非常顺利,包括循序渐进、自订进度的教程和视频,可帮助您让Hadoop为您工作。没有时间和数据限制,您可以在自己的时间里试验大量数据。观看视频学习教程(PDF)立即下载BigInsightsQuick
Start Edition

图6.在SPSSModeler
来源节点中访问Hadoop数据源

SPSS为多个SPSSModeler
节点提供了 Hadoop中 执行功能,这些是支持以MapReduce作业形式在Hadoop内执行操作的节点。以下SPSSModeler
节点支持Hadoop内的执行操作:
大多数数据准备操作模型评分:C&RT、Quest、CHAID、Linear、Regression、NeuralNet、C5.0、Logistic、Genlin、GLMM、Cox、SVM、BayesNet、TwoStep、KNN、DecisionList、Discriminant、SelfLearning、AnomalyDetection、Apriori、Carma、K-Means、Kohonen和TextMining

模型构建:Linear、NeuralNet、C&RT、Chaid和Quest

SPSSAnalytic Server 支持在Hadoop中运行R模型。一个流可同时包含SPSS和R模型。
SPSSAnalytic Server
还提供了与数据库数据源的连接。此特性支持您将数据库和Hadoop数据合并到单个SPSSModeler
流中。在运行时,SPSSAnalytic Server
与SPSSModeler
服务器联合,确定SPSSModeler
流的最佳运行环境(SQL推回操作或Hadoop内的执行操作)。
SPSSAnalytic Server
支持InfoSphereBigInsights
2.0 和2.1、IBMPureData™
for Hadoop 设备、InfoSphereBigInsights with
Platform Symphony,以及其他多个Hadoop发行版。
SPSS与InfoSphereStreams
的集成
InfoSphereStreams
是一个处理流数据的IBM平台。在实时处理需要高级分析时会使用SPSS集成。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护,以及实时营销产品。
InfoSphereStreams Quick Start Edition
InfoSphereStreams Quick Start Edition
是InfoSphereStreams
的一个免费、可下载的非生产版本,后者是IBM的高性能计算平台,用户开发的应用程序在接收来自数千个实时来源的信息时可以快速地执行获取、分析和关联。没有数据或时间限制,InfoSphereStreams
Quick Start Edition支持您在自己的独特环境中试验流计算。构建一个强大的分析平台,它能够处理难以置信的高数据吞吐量,高达每秒数百万个事件或消息。立即下载InfoSphereStreams
Quick Start Edition

InfoSphereStreams
和SPSS集成在数据挖掘生命周期的部署阶段中。模型使用存储在数据库或Hadoop中的历史数据来开发,部署在InfoSphereStreams
中以进行实时评分。InfoSphereStreams
和SPSS的集成由SPSSScoring
Toolkit 启用,安装在InfoSphereStreams
中。ScoringToolkit
是SPSSCollaboration
and Deployment Services (C&DS) 的一个组件。
在安装该工具包后,InfoSphereStreams
开发人员可使用操作符 将SPSS分析资产与InfoSphereStreams
应用程序相集成。publish 操作符在应用程序开发阶段用来获取适合InfoSphereStreams
部署的SPSS模型。scoring 操作符在运行时用于调用SPSS模型。repository 操作符可用于自动从SPSS模型存储库拉取模型的最新版本。图7显示了SPSS与InfoSphereStreams
运行时的集成的图表。
图7.SPSS
与InfoSphereStreams
的运行时集成图

结束语
SPSS平台与Netezza、InfoSphereBigInsights
和InfoSphereStreams
的内置集成能够让分析师使用强大的分析工具处理大数据。SPSS组件(提供了全面的分析功能)和大数据平台(支持可伸缩性和性能)的组合,为大数据开发人员提供了访问SPSS技术的能力。可以轻松地对SPSS分析资产进行修改,以便连接到不同的大数据来源,这些分析资产可以在不同的部署模式(批处理或实时模式)下运行。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: