您的位置:首页 > 理论基础 > 计算机网络

一种基于元数据和Ontology 计算的网络信息过滤方法

2008-09-26 10:30 537 查看
摘 要: 为了过滤概念相关的所有网络信息, 提出了一种基于元数据与Ontology 计算的网络信息过滤方法。它

首先基于Ontology 来描述用户待过滤领域的概念及关系, 然后基于Dublin Core 标准挖掘网络资源的元数据, 最

后以Ontology 描述的条件表达式作为过滤规则, 通过Ontology 计算结果对网络资源对应的元数据进行判别分

类, 根据判别结果来构建和更新过滤地址库。这样, 当用户请求访问某一网络资源时, 即可基于过滤地址库进行

筛选控制。基于元数据分析可以提高过滤准确率, 而基于Ontology 计算可以提高滤全率。

关键词: Ontology; 元数据; Dublin Core

人类已经进入“无网不在”的信息社会, 网络应用已经在人们的生活中占有越来越重要的地位。与此同时, 由其带来的负面影响也日益显露出来, 一些不良信息( 如邪教等) 在网络上传播, 造成了不可忽视的社会影响。如何有效地对因特网上的各种灰色信息加以标记和过滤, 在充分利用网上资源的同时, 减少其中不良信息对人们的危害, 已经成为一个亟待解决的全球性问题。检索、分类与信息过滤有着天然的联系, 传统的信息检索和过滤模型主要都是基于关键词进行处理的, 主要方法包括全文扫描、签名文件、倒排表、向量模型和聚类。但是面对以异构、海量和动态变化为主要特点的网络信息, 基于关键词的信息过滤往往存在误滤、漏滤和过滤质量不高等问题, 而语义Web[ 1] 的出现将改变这一状况, 其核心基础是元数据, 它通过在现有Web 基础上增加共用的、标准的、机器可理解的元数据使得许多应用成为可能或者变得更有成效,如信息获取与资源发现、网络资源过滤、可信任Web、智能浏览、基于Agent 的自动Web 服务等。为了克服传统基于关键词信息过滤方法的不足, 本文应用语义Web 的核心技术框架, 提出了一种基于元数据和Ontology[2] 计算的网络信息过滤方法: 它首先基于Ontology 来描述用户待过滤领域的概念及关系; 然后基于Dublin Core[ 3] 标准挖掘网络资源的元数据, 并将抽取的元数据和Ontology 信息均以统一的RDF 模型[ 4] 来描述; 最后以Ontology 描述的条件表达式作为过滤规则, 通过Ontology 计算结果对网络资源对应的元数据进行判别分类, 判别结果即可构建和更新过滤地址库。当用户请求访问某一网络资源时, 即可基于过滤地址库进行筛选控制。

1 元数据、Ontology 与智能信息过滤

Web 自1991 年出现以来, 经过13 年的发展已经成为一个巨大的全球化异构的信息资源库, 并且Web 上的信息量仍然以几何级数的速度增长, 不仅使得用户发现其真正所需要的信息变得非常困难, 也使得大量不良甚至非法信息隐匿其中, 信息过滤面临着海量和异构网络信息的困扰。而提高Web 信息检索和信息过滤质量的技术包括两方面内容: ①如何在现有的资源上设计更好的过滤技术; ② 如何为Web 上的资源附加上计算机可以理解的内容( 如元数据) , 便于计算机更好地自动化处理, 也就是给出一种计算机能理解的表示资源的手段。针对后一种情况,Web 发明人Burners-Lee 于2000 年12 月8 日在XML2000 的会议上正式提出了语义Web[ 4] , 语义Web 的目标是使得Web 上的信息具有计算机可以理解的语义, 满足智能软件代理( Agent) 对WWW 上异构和分布信息进行有效检索和过滤。

Burners-Lee 为未来的Web 发展提出了基于语义的体系结构———语义Web 体系结构( 图1) , 其核心基础是XML( eXtensibleMarkup Language) , RDF( Resource Description Framework,资源描述框架) [ 5] 以及基于XML和RDF描述的元数据。该体系从底层到高层分别为: Unicode 和URI ( Uniform ResourceIdentifiers ) , XML, RDF, Ontology, Logic, Proof, Trust。第一层是Unicode 和URI。该层是整个语义Web 的基础, 其中Unicode处理资源的编码, URI 负责标志资源; 第二层是XML + NS +XMLSchema, 用于表示数据的内容和结构; 第三层为RDF +RDFSchema, 用于描述Web 上的资源及其类型; 第四层为OntologyVocabulary 层, 它用于描述各种资源之间的联系; 第五层到第七层在下面四层的基础上进行逻辑推理操作。其中核心层为XML, RDF, Ontology, 这三层用于表示Web 信息的语义。

XML作为一种资源描述语言, 由于其良好的可扩展性和灵活性, 适合于表示各种信息, 已被认为是未来Web 上数据交换的标准。RDF 是W3C 推荐用于描述和处理元数据的一个标准, 它建立在一个Statement, 即具有形式{ predicate, subject,object} 的三元组的概念之上。对于一个三元组的解释是<subject > 有一个属性< predicate > , 属性值是< object >。RDF 为Web 应用程序之间交互提供机器能理解( 处理) 的信息, 它独立于任何语言, 适合任何领域。但是用XML 和RDF并不能解决如下问题: 如果某个医院和某个大学的Web 页面上都有< Doctor > 标签, 那么Doctor 代表的是医生还是博士?因此, XML 和RDF 在处理语义上存在两个问题: ① 同一概念有多种词汇表示; ②同一个词有多种含义( 概念) 。为解决上述两个问题, 就需要引入Ontology( 本体) 。Ontology通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义, 表示共同认可的、可共享的知识[ 2] 。对于Ontology来说, Author 和Creator 是同一个概念, 而Doctor 在大学和医院分别表示两个概念。因此在语义Web 中, Ontology 是解决语义层次上Web 信息共享和交换的基础。语义Web 体系结构( 图1) 为解决异构、海量的网络信息智能处理提供了一个基本的技术框架, 也为防火墙、杀毒软件在内容过滤方面的不足补上了第三道防线———基于元数据分析的智能信息过滤。但是由于目前大多数网络资源都是非结构化的即缺乏元数据描述, 语义Web 的相关标准还处在不断完善阶段, 基于元数据的智能信息处理面临着巨大的挑战。

2 基于元数据挖掘的网络信息过滤体系

语义Web 框架为解决网络信息处理提供了一个基本的技术框架。其核心层为XML, RDF, Ontology。但是由于语义Web及其相关标准还在不断完善发展之中, 目前的主要问题是绝大多数网络资源都没有使用标准的元数据描述站点信息, 网页、图像等网络资源也缺乏统一的元数据描述, 而且人工对网络资源进行标注也不现实, 因此基于元数据挖掘的IP过滤首先就要解决网络资源的元数据标注、抽取问题。其体系结构如图2 所示。该体系基于Dublin Core 元数据标准, 自动完成语义元数据的挖掘: 如果网络资源( 包括XML, HTML, SHTML, PDF,JEPG 等) 本身包含元数据, 则直接抽取, 如果网络资源没有元数据, 则首先综合网络协议分析、文本摘要、关键词抽取和数据挖掘技术对网络资源生成元数据, 接着对标注过的网络资源进行元数据抽取, 抽取的元数据和Ontology 描述的特定信息均以XML作为一种资源描述语言, 由于其良好的可扩展性和灵活性, 适合于表示各种信息, 已被认为是未来Web 上数据交换的标准。RDF 是W3C 推荐用于描述和处理元数据的一个标准, 它建立在一个Statement, 即具有形式{ predicate, subject,object} 的三元组的概念之上。对于一个三元组的解释是<subject > 有一个属性< predicate > , 属性值是< object >。RDF 为Web 应用程序之间交互提供机器能理解( 处理) 的信息, 它独立于任何语言, 适合任何领域。但是用XML 和RDF并不能解决如下问题: 如果某个医院和某个大学的Web 页面上都有< Doctor > 标签, 那么Doctor 代表的是医生还是博士?因此, XML 和RDF 在处理语义上存在两个问题: ① 同一概念有多种词汇表示; ②同一个词有多种含义( 概念) 。为解决上述两个问题, 就需要引入Ontology( 本体) 。Ontology通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义, 表示共同认可的、可共享的知识[ 2] 。对于Ontology来说, Author 和Creator 是同一个概念, 而Doctor 在大学和医院分别表示两个概念。因此在语义Web 中, Ontology 是解决语义层次上Web 信息共享和交换的基础。语义Web 体系结构( 图1) 为解决异构、海量的网络信息智能处理提供了一个基本的技术框架, 也为防火墙、杀毒软件在内容过滤方面的不足补上了第三道防线———基于元数据分析的智能信息过滤。但是由于目前大多数网络资源都是非结构化的即缺乏元数据描述, 语义Web 的相关标准还处在不断完善阶段, 基于元数据的智能信息处理面临着巨大的挑战。

如图2 所示, 基于元数据挖掘的网络信息过滤体系主要包括四大构件: Ontology 不良信息管理构件、元数据标注分析抽取构件、基于Ontology 的元数据分析评判构件和过滤地址人工监测反馈构件。过滤分析所需要的Ontology 和网络资源元数据统一以RDF三元组来描述, 并通过Jena API 存储在关系数据库中。系统包括三个基本知识库: Ontology 不良信息库、网络资源元数据库和过滤地址库。整个系统以斯坦福大学开发的具有插件结构的Protégé框架为基础, 将四大基本构件以插件的形式与知识库集成为一体。

语义元数据抽取的正确性直接影响到网络资源过滤的准确率, 但是, 由于语义Web 及其各项标准都刚提出不久, 而且还在进一步发展之中, 目前大量的网络资源并没有元数据描述, 如何自动为各类网络资源生成元数据成为元数据挖掘的一大难点。我们已经在MetaData Pro 系统中实现了部分元数据的自动标注和抽取[ 6] 。系统智能过滤的另一个关键技术是基

于概念及关系描述的条件表达式的计算。下面我们主要介绍基于Ontology 的计算方法。

3 基于Ontology 的计算评判

目前信息过滤主要是基于关键词进行处理的, 但是基于关键词计算到的结果通常准确率和召回率( Recall) 都很低, 如用户如果要过滤“计算机”相关信息, 与“电脑”相关的信息并不能全部过滤出来。然而, 如果我们用概念及其关系而不是关键词来描述过滤条件, 并且考虑到概念层次结构, 那么我们得到的结果就会有较高的准确率和召回率。其中的关键问题就是如何描述概念, 以前大多相关研究将概念看作知识词典或者用词的同现频率来表示概念[ 7] , 而Ontology 则是一种综合的描述概念的方法。它可以通过“概念- 属性”模型来表示词语间的各种关系, 如图3 给出了一个领域Ontology 中的部分概念关系图

由于抽取的元数据与描述不良信息的Ontology 都是基于RDF模型来描述的, 这样以Ontology 和RDF 三元组为基础, 过滤条件即可通过Predicate 和Object 来描述出来。其中Predicate规定了过滤的范围, 而Object 又限定了Predicate 属性值, 如下:

Predicate = < Predicate List >

Object = < Criterion-expression >

其中< Predicate List > 规定了Predicate 集合, < Criterion-ex-pression > 通过如下范式来定义

< Criterion-expression > : : = < Item > | < Criterion-expression > or

< Item>

< Item> : : = < Factor > | < Item > and < Factor >

< Factor > : : = < Criterion-expression > ) |< Ontology-factor > | not

< Criterion-expression >

< Ontology-factor > : : = < Concept > | literal | relation ( < Ontology-

factor > )

< Concept > : : = class | instance

过滤条件本质上是一个逻辑表达式, 但是这里的<Factor>基于Ontology的词汇集和操作符进行了扩展: 它可以是概念、关系或者Literal( 即关键词) 。

Ontology 计算引擎就是将基于Ontology 词汇集和操作符描述的过滤条件表达式解释为基于关键词描述的布尔表达式,其解释方法如下:

( 1) 计算概念关系子表达式Relation( < Ontology-factor > ) ,它将被解释为具有Relation 关系并且基于<Ontology-factor > 表达的概念对应的所有Classes( 类) 和Instances( 实例) 。重复该步骤直到条件表达式中的所有关系表达式都计算完。现在过滤条件表达式中仅仅包含Classes( 类) 、Instances( 实例) 和Literals( 即关键词) 。

( 2) 将上一步得到的结果中的所有Classes 和Instances 用Ontology 中Classes 和Instances 对应的标签词汇来替换。这样, 过滤条件就被转换成了基于关键词( Literals) 的普通布尔表达式, 该布尔表达式即可通过Jena RDQL( RDF 查询语言) 来检索符合条件的元数据。

4 结论和进一步工作

基于元数据来描述网络资源使得机器对网络资源的智能过滤更加有效, 而基于Ontology 计算使得概念相关的过滤成为可能。例如用户如果想过滤掉邪教相关的网络资源, 传统基于关键词分析的过滤不能将邪教相关的网络资源过滤掉,而基于Ontology 计算不仅可以将邪教相关资源过滤掉, 而且通过对概念所属领域的进一步限制, 可以只过滤宣传邪教的网络资源。总体来看, 基于元数据和Ontology 计算的信息过滤具有较高的准确率和召回率。目前对于网络资源中的元数据的挖掘还不精确, 领域Ontology 主要还是通过领域专家手工构建和验证, Ontology 的描述还不够准确, 因此, 下一步我们将进一步研究更加准确和高效的元数据挖掘方法和Ontology 的构建方法, 从而不断改进系统的过滤效率和准确率。

5. 3 对自动活动的处理

自动活动在系统中实现为对一个具体Web 服务的访问。系统提供静态绑定和UDDI 绑定两种定位方式。在静态绑定方式下, 可以在活动定义时直接给出服务的调用地址。有时,服务的定位需要在流程运行时根据流程执行状态动态执行, 这就可以采用UDDI 绑定方式: 用户在定义活动的执行时给出Web 服务的查询条件, 在运行时根据该查询条件动态地到UDDI注册中心进行查询, 得到服务的调用地址。

6 总结

本文通过研究分析当前对跨企业工作流进行集成时所面临的问题, 提出了一种支持分布式工作流模型的工作流管理系统模型。本系统的优点在于: 能够提高模型的建立速度; 各企业维护自己的工作流模型, 保护了企业的商业秘密; 具有良好的柔性, 随时可以加入新的企业工作流模型。实践证明, 本系统能够很好地解决跨企业工作流集成的问题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐