您的位置：首页 > 其它

[转]Web 数据的动态融合(Dynamic Fusion of Web Data 的文章进行翻译)

2008-10-16 10:49 399 查看

http://www.cnblogs.com/penny/archive/2008/07/07/1237520.html

Web 数据的动态融合

摘要：Mashups 例证了一个类工作流的方法，它能够动态的集成来自不同web资源的数据和服务。这种集成式的工作流是以已有的服务为基础，用于web查询、实体查询、数据库查询和信息抽取，从而完成其他数据集成方法。关键问题在于集成工作流执行的有效性以及查询和匹配的及时性。我们将Mashup 数据集成和其他方法联系起来，列出主要问题和最初的原型设计的全部特征。

1.绪论

融合不同web资源数据的需求量正迅速增长。显著的实例是：近来，整合来自不同资源和服务的内容的Mashup的应用在增多。Mashup应用是交互的，能够灵活的运用web2.0用户接口。Mashups的内容整合是动态的，比如，它是按需执行操作，它是基于具体的用户输入。广泛的使用Mashups推动了多数发展框架的有效性，如，Google Web Toolkit。它推动了web APIs的发展，用于简单的访问大量网站，与此同时，搜索引擎或数据文件的信息抽取工具也在迅速增多。许多工具也支持可视化的接口，在不使用程序的情况下完成简单的Mashups指令，如：Yahoo pipes, OpenKapow, Mashmaker[2]。

它有着迅速发展的潜力，聚合不同资源的web数据，成为一种具有较高吸引力的方法。因为传统的、基于模式的数据集成，需要一种更高级的处理方式来解决语义异构性[3]。面对大量资源，这种处理方式需要确定一个全球化的、准确的模式映射，限制了基于模式的方法的可扩展性。另一方面，Web搜索引擎是针对大部分网站，但是对隐藏的web的结构化数据资源缺乏足够的支持吗？正在研究一些能够更好的提供集成的方法，这些方法能够访问非结构化和结构化的web资源，同时保证了这些方法也具有很好的扩展性。例如，MetaQuerier为大量隐藏的web的结构化web资源提供统一的实体搜索接口[1]。PayGo 目的在于提供web范围、域名分解去访问结构化的资源[4]。它试着聚合相关联的模式在一起，通过改变相关联资源上的关键字查询为结构化的查询，从而改进查询结果。这种查询方法丢失了对非均匀的查询结果的后处理，只是一种相同对象的在线融合。

Mashups例证了一种更加具有编程性、类工作流的集成方法，完善了基于查询和搜索的数据集成的方法。事实上，在很大程度上，Mashups的理念是对已有服务的复用和聚合。然而，目前的Mashups大部分非常简单，但是不能充分利用类工作流的数据集成的潜能，如，企业应用的需要或者分析更大的web数据的集合。因此，我们希望看到一种功效强大的类工作流的数据聚合方法，这种方法能够支持Mashups的特征，如web2.0 GUIs，支持复用和快速开发。

提供一种能够接受各种挑战的方法，这种方法支持Mashups架构的定义，定义分为三个层：数据层、应用层和显示层。同时，一种有效的工作流和编程模型需要支持已有的web服务和支持一般服务或操作的执行，支持信息提取，支持实体查询，支持数据库查询和对象匹配。应该列出一组可用的服务和数据资源，类似于提议的使用元数据存储，从语义上描述这组可用的服务和数据资源[3]。交互的Mashups的一个限定性因素是执行时间。因此，在较短的时间内，技术需要处理大量复杂的集成任务，如，相关查询、搜索、较大数据集的对象匹配。

在下一部分，我们讨论第一个类工作流动态数据聚合模型的特征。

2.iFuice的信息融合

目前，我们正在更新iFuice系统，主要是针对其动态性和类Mashup数据聚合[6][7]。在[7]中，对于DBLP发布的作者和地址的列表中，我们的报告显示了一个引用数量，这个引用数量是在一个按要求集成的GS上通过实现复杂的Mashup而产生的。在这里，我们简要的说明一下设计iFuice的一些关键技术，这些技术让我们明白，它在类Mashup应用方面，对动态数据聚合的适合性。

1. 类工作流的数据聚合和基于运算符的编程模型。iFuice提供了一个高层次的脚本语言去定义工作流或Mashups集成。这类语言是由有效的基本运算符组成，这些运算符能够应用于不同的数据源和服务。例如，将一个查询运算符视为输入一个查询服务和一个查询规范的id。大部分运算符被设置为定向的，如，他们被用于一个任意组的输出对象和产生一组结果集。中间的结果以变量的形式存储，被其他运算符使用。有些用于集操作的运算符（如，并集、交集、差集）和数据转换（如，融合、聚集）的运算符都能用于后处理查询结果。

2. 实例层映射的应用。iFuice利用实例层映射来描述实体类型的实例间的关系。这种映射能够将不同资源的实例关联起来，如，作者或不同的目录资源的出版物的一致性。这种映射也经常作为超链接存在。此外，对于结构化的资源，我们支持实例层关联，这些关联是介于给予的资源的对象之间，如，作者和他的出版物的相互关联。这种实例层映射能够有效的将相同对象融合在一起，即使在缺乏映射模式情况下，也可以将相同对象融合在一起。实现的这类映射，支持不同的集成工作流和实例的复用。

3. 支持结构化和非结构化的数据资源。通过提供合适的访问接口，来支持服务结构化和非结构化的web资源。可以通过基于实体ids，或者使用结构化查询或关键字查询来访问每个资源。在此基础上，我们能够使存在的实体搜索引擎，或一般的搜索引擎保持平衡，去复用他们从其他资源聚集的结果。

4. 元数据存储。有效的数据资源和服务被记录在存储器里，并且被指定实体类型。如，作者，出版物。同时，维持所有的有效的映射和他们的语义映射类型（如，作者的出版物）。实体和映射类型是所谓的域名模型的一部分，这种域名模型可以随着需求不断的扩展。一个域名模型是一个比所有数据库模式还高级的抽象（本体）层，它帮助定位语义上相关的资源和服务。

5. 迭代查询策略。已有的搜索引擎，需要满足更多复杂的集成任务的查询，用于维持足够数量的关系型结果实体，所以，iFuice允许迭代的限制查询结果。用户可以有效地控制下一步查询的执行。OCS应用[7]对实体搜索引擎Google Scholar使用限制性查询，来获取对一组出版物的引用。中间结果展现给用户，同时，系统执行其他的查询去完成结果。使用这种类查询策略允许快速生成近似结果，这些结果能够根据需要变化而变化。

6. 即时性对象匹配。动态数据融合需要从不同的资源匹配一致性的对象，及时的融合他们的属性值。MOMA框架[8]提供了一系列匹配策略，可以任意选择其中的策略。尤其是，已有映射的复用能有助于实现一种快速对象匹配。

我们对动态的类Mashup数据融合的研究刚刚开始，仍存在一些复杂的研究问题，比如，迭代查询策略的自动产生和即时性对象匹配方法，仍然需要进一步讨论研究。

参考文献：

[1]Toward Large Scale Integration: Building a MetaQuerier over Database on the Web

[2]Mashups for the Masses

[3] From Databases to Dataspaces: a New Abstraction for Information Management

[4] Web-scale Data Integration: You can only afford to Pay As You Go

[5] Object-level Vertical Search.IIWeb

[6] iFuice – Information Fusion utilizing Instance Correspondences and Peer Mappings

[7] Data Integration Support for Mashups. IIWeb

[8] MOMA-A Mapping-based Object Matching System

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航