您的位置:首页 > 其它

基于领域本体的语义信息检索研究

2009-01-03 16:56 288 查看
基于领域本体的语义信息检索研究
(马文虎 南京理工大学信息管理系)

目 录
引言... 1
1信息检索与本体概述... 1
1.1 信息检索... 1
1.1.1 信息检索的概念... 1
1.1.2 信息检索模型... 2
1.1.3 信息检索技术... 2
1.1.4 信息检索存在的问题... 3
1.2 本体... 5
1.2.1 本体概述... 5
1.2.4 本体在语义检索中的作用... 5
1.3 基于本体的信息检索研究意义... 6
2 基于领域本体的语义信息检索... 7
2.1 基于本体的信息检索设计思想... 7
2.2 基于领域本体的语义信息检索结构... 8
3 基于领域本体的语义处理关键技术研究... 8
3.1 基于领域本体的文档预处理... 8
3.1.1 预处理... 9
3.1.2 语义标注... 9
3.1.3 索引... 10
3.2 基于领域本体的文档检索... 11
3.2.1 基于领域本体的文档检索过程... 11
3.2.2 基于领域本体的语义相似度计算... 12
3.2.3 基于领域本体的语义查询扩展... 12
3.2.4 倒排索引技术... 14
3.2.5 Jena推理机... 14
4 基于领域本体语义信息检索的研究现状... 14
结 论... 17
参 考 文 献... 18

要:
传统信息检索系统是基于关键字的检索,关键字通常并不能完全表达用户的检索需求。本文首先介绍了信息检索与本体的相关理论,针对目前信息检索存在的问题,从设计思想、系统架构等方面介绍了基于领域本体的语义检索。此外本文还研究了基于领域本体的语义检索的关键技术,并对该课题的研究现状做了深入分析。
关键词:
本体 领域本体 语义检索 信息检索

引言

随着计算机技术以及Internet的迅速发展,人类己经进入了网络信息时代,任何人都可以在互联网上方便的浏览、获取或者提供信息。Internet是海量信息资源库,随着时间的推移,信息量正以爆炸性的速度增长,而且信息的组织是异构的、多元的和分布的,如何准确的在浩如烟海的信息中寻找满足用户查询期望的信息成为信息检索系统所面临的挑战。然而一般的信息检索系统所基于的原理是字符串匹配的方式,在查全率和查准率这两大信息检索系统性能指标上无法取得令人满意的结果[2]。自从本体(Ontology)概念诞生以来,人们开始了对于基于本体的信息检索的尝试,试图利用本体的语义关系来提高检索系统的语义智能,进而提高信息检索系统的查全率和查准率。

1信息检索与本体概述

基于领域本体的语义信息检索,旨在利用本体的丰富的语义关系实现用户查询的语义理解,进而提高信息检索的查全率和查准率。本节将对信息检索理论和本体理论做一概述。

1.1 信息检索

信息检索(Information Retrieval简称IR)通常是将信息按照一定的方式组织和存储起来,并根据用户的需要找出有关的信息的过程和技术[1]。

1.1.1 信息检索的概念

信息检索有狭义的和广义的之分。狭义的信息检索仅指给出信息检索需求即检索相关文档集,从中找出所需要的信息的过程;而广义的信息检索,不但能检索文本信息,而且也可以检索非文本信息(如:图像、视频等),并可完成多种任务(如:文本检索、过滤、分类、摘要等)[1]。而本文研究的范围是狭义的信息检索。
信息检索是信息资源与信息需求的匹配过程,是通过一定的算法寻找信息资源与信息需求的交集的过程(如图1所示)。由于信息资源空间和信息需求空间的不确定性,信息检索是信息需求向信息资源不断靠近的过程,是一个摸索的过程,是一个逐步求精的过程[3]。

信息需求
信息资源
匹配结果




图1 信息检索逻辑模型
在信息检索中,信息资源和信息需求的表示对信息检索的效率有十分重要的影响。因此,信息资源和信息需求表达的不确定性是信息检索系统中的一个重要问题。如何控制和协调信息资源和信息需求的表达的一致性是信息检索中至关重要的工作。
信息检索过程是对不同的信息资源和需求不同层次的描述信息,进行比较和匹配的过程。信息检索过程主要涉及两个方面:信息检索的数学模型和特征内容处理。
检索结果是信息检索的最终目的,直接关系到信息检索的性能。对检索结果进行分析可以为语义空间技术、信息表示技术和信息匹配技术提供有效的反馈信息,从而提高信息检索的性能。信息检索结果分析涉及到信息检索结果排序、信息检索结果的性能分析[3]。

1.1.2 信息检索模型

信息检索模型是指在对查询和文档合理表示的基础上,实现相似度计算,并按照用户查询对文档集合进行相关排序的框架和算法,其本质在于相似度建模。
信息检索模型是IR的核心内容之一。文档可被表示为成多个特征项(Term)的集合,Term可以看成关键词(Keywords);标引项(Index Term)是能代表文档的特征。不同标引项作用是不同的,可通过权重(Weight)加以区分。
因此,信息检索模型是将文档、查询词以及它们之间的关系进行建模的框架。由四元体组成:F{D,Q,R(qi,dj)}
D:文档集中一组文档的逻辑视图。
Q:一组用户信息需求的逻辑视图,是一个查询集合,也是用户任务的表达。
R(qi,dj)排序函数,该函数给查询qi、和文档dj之间的相关度赋予一个排序值。
F是一个框架,用以构建文档、查询以及它们之间关系的模型。
信息检索模型是判断文本是否与查询相关和对相关文本进行排序的数学模型。根据相关度判别方法的不同,分为三种信息检索模型,即基于集合论的布尔模型(Set Theoretic models)、基于代数论的向量空间模型(Algebraic mode1s)和基于概率统计的概率模型(Probabilistic models) [1]。

1.1.3 信息检索技术

信息检索的发展经历了手工信息检索、机械信息检索、计算机信息检索等几个发展阶段。目前,信息检索主要可以分为以下三个领域:数据检索(Data retrieval)、全文检索(Text retrieval)和知识检索(Knowledge retrieval) [1]。
1) 数据检索
数据检索主要针对结构化信息系统,查询要求和数据都遵循一定的格式,具有一定的结构。数据检索允许对特定的字段检索,例如:检索技术=“本体”。比较有代表性的是各种商业数据库。数据检索依赖于编码的质量,检索花费大,检出的信息相对准确,但容易漏检相关的数据,并且数据检索的性能取决于所使用的字段标识方法和用户对这种方法的理解,具有很大的局限性。另外,数据检索支持语义匹配的能力较差。
2) 全文检索
全文检索的检索原理是把用户的查询请求以关键词的形式与全文中的每一个词进行比较、匹配,而不考虑查询请求与文档语义是否相关,比较有代表性的是Google和百度。这种检索方式缺点是只根据检索关键词针对文本一一匹配,因此检出信息量大、缺乏人工干预,返回大量无关信息,用户往往面对检索结果无所适从,且必须从结果中进行筛选。
3) 知识检索
知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。知识检索具有两个显著特征,一是基于某种具有语义模型的知识组织体系,知识组织体系是实现知识检索的前提与基础,知识检索则是基于知识组织体系的结果;二是对资源对象进行基于元数据的语义标注,元数据是知识组织系统的语义基础,只有经过元数据描述与标注的资源才具有长期利用的价值。以知识组织体系为基础,并以此对资源进行语义标注,才能实现知识检索。
衡量检索系统检索效果的参数主要有查全率(Recall)和查准率(Precision)。查全率是检索出的相关文档数和文档库中所有的相关文档数的比率;查准率是检索出的相关文档数与检索出的文档总数的比率。
对于一个检索系统来讲,查全率和查准率不可能两全其美:查全率高时,查准率低,查准率高时,查全率低。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的Web网页,所以查全率很难实现,目前的搜索引擎系统主要关心的性能指标是查准率。
另外,影响一个搜索引擎系统的性能还有很多因素,其中最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法以及用户进行相关度反馈的机制。

1.1.4 信息检索存在的问题

信息检索技术,包括商用化的产品已经问世很多年了,这些年年来在检索关键技术、系统结构设计和查询算法等方面都有了很大的进步,一大批商用检索系统目前正广泛使用着[3]。但根据美国PEW/Internet调查公司对美国搜索引擎使用者的调查结果显示,随着因特网上的信息量呈指数级的增长,人们却因为“信息过载”而陷入了“信息危机”中。究其原因,一方面是由于因特网信息分布的特点导致了人们处于一个鱼目混珠、纷繁复杂的信息环境;另一方面是目前的信息检索技术还不能完全满足用户的需求,主要表现如下:
1) 搜索引擎不能体现用户的个性化信息需求:网络信息内容覆盖面很广、形式各异,而搜索引擎对所有的用户提供相同的界面和检索策略;但实际上不同用户或同一用户在不同的时刻对信息需求的侧重点是不同的。
2) 搜索引擎不能为用户提供高质量的信息:目前的搜索引擎检索方式单一,仅能为用户提供分类浏览的查询方式或基于关键词的全文检索方式,不能充分表达与理解用户的检索需求,也不能理解文档的内容并提取其所揭示的主题内容,因而无法提供基于内容的、智能的信息检索服务。分类方式查询按类层层查询,方式虽然简单,但容易漏检,查全率低;基于关键词的全文检索匹配模式单一,会反馈给用户大量无关信息,从而降低查准率。
3) Web环境下的信息资源结构多样,搜索引擎只能为用户提供网页格式的文档信息,对于在数据库中存放的结构化数据则无能为力,而这类“隐性数据”通常是经过人工控制的比较有价值的信息。
4) 网络信息是实时动态的,但搜索引擎只能在一定的时间间隔内对信息进行采集标引,不能保证信息的及时更新,由此产生错链接和死链接,给用户造成浏览负担。
为了解决上述问题,本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众多科研人员的关注,并在计算机信息检索领域取得了广泛的应用。形式化定义的本体不仅能够以面向对象的方式描述特定领域的主要概念,而且能够描述概念之间的关系:借助本体,普通用户可以方便地在概念上描述信息需求,构造复杂的查询;信息检索系统可以对信息源进行深层次的语义标引,从而突破机械式字面匹配局限于表面形式的缺陷,实现概念检索[4]。
下面本文将简单介绍本体的相关理论。

1.2 本体

本体最早是一个源于哲学的概念,是一种对“存在”的系统化解释,用于描述事务的本质。后来知识工程学者借用了这个概念,在开发知识系统时用于领域知识的获取[8]。

1.2.1 本体概述

最早给出本体定义的是Neches、Fikes 等人。他们将本体(ontology)定义为“给出构成相关领域词汇的基本术语和关系,及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。之后,在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许多不同的定义。其中“本体是共享概念模型的明确的形式化规范说明”是目前公认的定义,它包含了4层含义:即概念化、明确、形式化和共享。
Perez等人用分类法组织了Ontology,并归纳了本体的5 个基本的建模元语,即组成本体的基本要素:类,关系,函数,公理及实例[9]。其中,类是具有某些相同属性的实例的集合;关系代表了在领域中概念之间的交互作用;函数是一种特殊的关系;公理是永真的断言,是本体中的约束;实例表示现实世界中的具体对象。本体就是通过这5 个要素的刻画来描述对象、构建领域知识的。
到目前为止构建本体还没有统一的工程化方法,不过已有很多研究者提出了各种规则,其中,最有影响的是Gruber在1995 年提出的5 条构建本体的规则:清晰,一致性,可扩展性,编码偏好程度最小及本体约定最小。在这些规则的基础上人们也提出了几个比较常用的构造本体的方法[6],例如:“骨架法”、“评价法”、“Methontology”及斯坦福大学提出的“七步法”等。这些方法都是基于自己项目提出的各案化开发方法,不具有普遍适用性,类似软件工程的工程化方法还在研究之中,不过被普遍认可的是:开发领域本体要有领域专家的参与[10]。

1.2.4 本体在语义检索中的作用

本体在语义检索中的作用主要体现在以下3个方面[5]:
l) 建立好的本体确定了标注中所使用的词汇、术语以及描述被标注资源之间相互关系的词汇。
2) 建立好的本体确定了检索所使用的词汇,应该说,说有可供检索的字段都来自这个本体中。
3) 本体是推理的依据:当需要使用推理工具进行推理时,所有资源之间的关系以及对属性的约束等条件均出自本体。
由本体在语义检索中的作用可以看出,本体的建立是进行语义检索的前提条件。

1.3 基于本体的信息检索研究意义

目前常用的信息检索系统主要是基于人工分类目录和关键词匹配的。前者在面对海量信息时,对信息资源的揭示效率和深度都显得无能为力,后者仅局限在字符形式匹配的层面上,对信息的语义、语用的揭示极为有限,智能处理的能力非常缺乏。缺乏语义能力的处理导致目前检索工具远远不能满足用户的需求,因此提高信息利用的效率,成为目前非常重要和迫切的研究课题。
本体作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点,并在许多领域得到了广泛的应用,如知识工程、软件复用,信息系统间异构信息处理,自然语言理解等。特别是在信息检索领域,Ontology提供了一种对信息和知识进行规范化描述和建模的方法,在构建智能化的检索系统、构建语义Web等方面有很重要的意义。
本体具有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达概念语义的能力,能较好地为语义检索和概念检索提供知识基础,所以基于本体的信息检索成为一个重要的研究课题。基于本体的智能信息检索优于关键词搜索,因为本体包含机器可以判断的概念的定义,从而使系统对领域内的概念、概念之间的联系以及领域内的基本公理知识有一个统一的认识,系统通过分析用户提出的查询中所包含词(组)的语义,理解用户的查询,并准确地映射到信息资源,从而提高了信息检索系统的查全率和查准率。
信息检索作为信息学领域中最活跃的研究分支之一,其涉及到多学科领域的交叉合作,主要包括:信息的组织、存储,索引,异质数据源的集成和人工智能等技术,信息检索技术的研究与发展和这些相关领域的发展是息息相关的,同样的,对新型智能信息检索技术的研究也能推动相关科研领域的发展。因此,基于本体的语义信息检索技术研究还具有较高的学术理论意义。[2]

2 基于领域本体的语义信息检索

基于领域本体的检索是通过对用户查询需求进行语义上的自然语言处理,析取出各种概念信息,从概念意义层次上来处理用户的检索提问式,不仅能检索出包含提问式中的关键词的结果,还能检索出包含那些与该词同一类概念的词汇结果。它能够很好的利用信息的语义知识,“理解”用户的检索需求,通过知识学习,分析理解和推理归纳来实现检索的“智能化”,突破关键词匹配局限于表面形式的缺陷[3]。

2.1 基于本体的信息检索设计思想

基于本体的信息检索的基本设计思想可以总结如下[3]:
l) 在领域专家的帮助下,建立相关领域的本体。
2) 收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中。
3) 对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合。
4) 检索的结果经过定制处理后,返回给用户。
需要说明的是,如果检索系统不需要太强的推理能力,本体可用概念图的形式表示并存储,数据可以保存在一般的关系数据库中,采用图的匹配技术来完成信息检索。如果要求比较强的推理能力,一般需要用一种描述语言(如:Loom,Ontolingua等)表示本体,数据保存在知识库中,采用描述语言的逻辑推理能力来完成信息检索。由于本体能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率和查准率。

2.2 基于领域本体的语义信息检索结构

在上节中,阐述了基于本体的信息检索的基本设计思想。本节在该思想的指导下,构建了一个基于领域本体的智能化的信息检索系统结构模型。系统将本体技术应用于结构中。该系统由如下几个模块组成:领域本体服务器、查询转换模块、定制处理模块、检索代理、文档处理器。它们之间的结构关系如图2所示。

用户界面
查询转换模块
定制处理模块
检索代理
文档处理器
领域本体服务器
数据源
信息库


图2 基于本体的信息检索系统结构模型
整个系统结构主要分为两部分:基于本体的文档预处理(包括领域本体服务器、数据源、文档处理器和信息库)和基于本体的文档检索(包括领域本体服务器、查询转换模块、定制处理模块、检索代理和信息库)。
在图2给出的原型系统结构中,与传统的信息检索系统不同的地方在于,检索过程和文档处理过程中都加入了本体的作用。下面将就这两个过程进行详细的探讨[3]。

3 基于领域本体的语义处理关键技术研究

本节主要研究基于本体的语义处理若干关键技术,其中主要包括:语义预处理技术、基于本体的语义相似度计算模型及改进算法、基于本体的语义扩展技术和倒排文件索引查询算法的改进等。

3.1 基于领域本体的文档预处理

信息检索的目的,就是根据用户的检索请求,从大量的信息源中找出满足用户请求的信息,并将结果按照与用户请求的相关性大小进行排序后返回给用户。要从大量的信息源中找出所需信息,如果在检索前不对文档进行任何处理,检索效率肯定低下,因此必须对文本进行一定的预处理,以达到提高检索效率的目的。
本文中,文档预处理的目的是从非结构化的文本信息中提取出文本中的有用信息,并根据领域本体的概念建立文本的词汇与概念之间的映射关系。这样,就将这些非结构化的文本信息与结构化的领域本体建立了联系,从而可以利用本体的结构化的知识来协助检索非结构化的文本信息。文本处理过程如图3。



图3 文本处理过程[3]

3.1.1 预处理

对给定文献集中的每篇文献,首先,进行文本的词汇分析,即将文档中的文本转换为词,对数字、连字符、标点和字母的大小写进行处理;然后利用禁用词表去掉文献中的虚词,过滤掉那些对检索来说作用不大的词,仅取名词、动词等有实际意义的词或词组;然后对得到的词(组)进行词干抽取,去掉前后缀,使得查询项的语法变异词也能够被检索;接着选择索引项,确定哪些词(或词干、词组)用作索引元素,获得能正确表达文献内容的概念性词或词组[3]。

3.1.2 语义标注

根据本体对检索对象进行语义标注,即通过分析文档的特征词汇(代表文档内容的词汇、关键字),建立词汇与概念之间的映射关系。首先,从文档中抽取特征词汇,根据词汇的统计词频或者文档创建者赋予的标志为每个特征词赋予权值,以表示它们在检索中的重要程度。然后,对于本体中每个术语的每一种语义,看其是否存在于已经抽取的特征词汇中。如果存在,将包含该含义的文档以及权值一并标在该语义旁,从而把文档跟本体关联起来,这样就把文档隐含的语义信息显式的表现出来了[3]。
文本信息的语义标注,是语义检索系统中的一个非常重要的环节,其标注的好坏直接影响到后期的检索效果。文献[1]对于文本信息的语义标注处理流程如图4所示,



图4 语义标注流程图[1]

3.1.3 索引

对文档建立基于概念的索引,是在对文本内容特征提取的基础上生成的一类索引,其目的是希望在索引中反映出文本标引词之间的内在联系,从而在标引过程中过滤文本存在的语言歧义,基于概念的索引由通过语义分析得到的揭示文本内容的特征词汇及其关系构成,特征词汇通过该本体实例的文档与本体联系起。基于本体概念的索引结构图如5。



图5 基于本体概念的索引结构

3.2 基于领域本体的文档检索

3.2.1 基于领域本体的文档检索过程

基于领域本体的文档检索的整个过程如下:
l) 用户先在检索界面输入检索词或词组,对用户输入的查询语句利用禁用词表去掉无用的虚词,仅取名词、动词等有实际意义的词或相关词组,然后对得到的词(组)进行词干抽取,获得能正确表达查询句语义的概念性词或词组,把结果传递给查询转换模块。
2) 查询转换模块将上述结果到本体服务器中查找相应的概念,对得到的概念进行语义化处理,包括找出各检索词的上位词、下位词、同义词以及概念的义项;对本体库中找不到的概念词保留,以便返回给用户及时调整检索策略。
3) 对于领域本体中匹配的概念,查询转换模块按照所得信息对本次查询进行查询转换(如查询语义的判断和查询扩展),使查询具有相应的语义信息,然后交给检索代理到信息库中进行查询;对不能确定语义信息的查询按照关键词匹配技术进行查询。
4) 查询所得的结果经定制处理模块处理,按照检索词原词查询结果,检索词同义词查询结果,检索词上位词查询结果、检索词下位词查询结果进行排序,然后由用户界面显示查询结果。

3.2.2 基于领域本体的语义相似度计算

在信息检索过程中,检索系统首先进行的是参照领域本体对用户查询请求预处理。经过查询预处理后,主要解决用户查询概念的“一词多义”性,明确了用户真正的检索意图,并且得到概念在领域中的上下文环境,初步具备了语义信息。
但要解决概念的“一义多词”性,对用户查一询请求中的关键词(实际上是该关键词在领域本体中对应概念)进行语义扩展还需要借助概念相关性和相似性计算来处理。概念相似性和相关性是语义扩展的依据,因此如何提高概念相似度和相关度计算精度,成为基于本体的语义信息检索的又一关键技术。
目前,传统的概念语义相似度计算模型有三种:基于距离的语义相似度计算模型、基于内容的语义相似度计算模型和基于属性的语义相似度计算模型。此外,文献[1]还提出了一种改进的语义相似度计算模型,构建流程如图6。



图6 改进的相似度计算模型构造流程

3.2.3 基于领域本体的语义查询扩展[1]

在信息检索中,往往出现由于用户所选择的词和文档中出现的目标词不匹配,从而导致检索效率低下乃至失败。根据统计,人们用完全相同的词描述同一概念的可能性小于20%。当用户查询词越短的时候这种不匹配的现象越普遍,而当查询词增多时,查询词在文档中出现的概率会大大增加。因此,查询扩展(Query
Expansion)技术在原来查询的基础上加入与用户用词相关联的词,组成新的更长、更准确的查询,这样就在一定程度能弥补用户查询信息不足的缺陷,并且逐渐发展成了信息检索领域研究的一个重要方向:查询扩展技术。
基于本体的语义查询扩展技术试图借助于领域本体的语义关系及其推理机制对用户的查询进行语义层次的扩展,从而使检索系统能更好地理解用户查询意图,帮助用户明确查询目标。
1) 基于领域本体的用户查询模式分析
在基于领域本体的查询中,我们分析用户的查询,不难发现用户的查询往往遵循几种主要的方式:①单个关键词、②多个关键词组合和③自然语言查询模式。
2) 基于领域本体的用户查询算法
根据上文提到的几种不同的用户查询的模式,我们采取不同的查现。对于第一种模式,其处理过程为将用户输入的提问词带入领域本体中的概念以及属性实例等进行匹配,利用匹配到的概念词进行相的检索,其算法如下:
输入:用户查询Q,领域本体
输出:知识内容显示
其相应的算法流程包括4个步骤:
(1) 对用户查询Q中的单词一一在领域本体中进行匹配;
(2) 从领域本体中找到相应的规范的概念词;
(3) 基于概念词,与标注后提取的知识内容匹配;
(4) 从语义索引库中将相应的知识内容展示给用户。
对于第二、三中用户查询模式,其算法流程与第一种查询模式类似,这里不予赘述。
3) 基于领域本体的用户检索项推荐
用户检索项推荐技术在Google、Yahoo中国、Sougou搜狗等检索系统中都被运用到,对用户提供检索项的推荐,可以帮助检索目的不是非常明确的用户明确自己的检索目标。事实证明,这种检索项的推荐可以很大程度上提高查询效率,帮助用户准确定位查询目标。然而Google、Sougou搜狗、Yahoo中国等检索系统提供的检索项的推荐是基于字符串匹配的形式,如对用户输入的检索词“微软”会提供诸如“微软中国”、“微软拼音输入法”、“微软认证”、“微软网站”等等的检索项推荐,而不会提供“Microsoft”的检索推荐项,然而事实上“Microsoft”是与“微软”最为吻合的概念。而引入领域本体后,在基于领域本体的基础上,利用其丰富的语义机制,对用户进行检索项推荐,能够更好的理解用户的需求。

3.2.4 倒排索引技术

倒排文件作为一种简单、高效的文档数据索引方式,被普遍采用,是搜索引擎检索系统实现的一项基础技术。随着网络应用的不断普及,搜索引擎系统不仅索引的信息量越来越大,而且需要能同时快速响应的查询越来越多,从而使得优化倒排文件的组织、改善查询算法,不断提高查询系统效率成为了一个长期的研究课题。
对于文本检索来说,最有效的索引结构则是倒排文件索引结构。上述算法有其实现简单的特点,但实验表明由于网络索引数据量增大,按上述算法执行的效率不理想。因此可考虑“经常被访问的数据将被再次访问”的思想,于是出现了分块倒排索引文件组织结构[1]。

3.2.5 Jena推理机

在本文的研究中,需要利用领域本体丰富的语义关系进行推理,本文采用惠普实验室的Jena推理机来作为推理工具,下面将对Jena推理机做一个简要的介绍。
Jena是惠普实验室语义Web的开放资源,它提供了开源的基于Ontology的语义检索API,用于创建语义Web应用系统的Java框架结构,并为RDF、RDFS、OWL提供了一个程序二次开发环境[2]。
Jena是面向语义Web的应用开发包,包含的内容比较全面,推理机只是其中一部分。Jena提供的推理机和RACER、FaCT、Pellet等一样,是针对本体的推理机,但Jena本身并不是“推理机设计专家”,它自身包含的推理机基本上就是一种CHSP配合本体领域产生式规则的前向推理系统。因此,它的运行效率不是很高。DIG接口弥补了这一不足,DIG有些类似数据库中的ODBC,允许前端挂接到后台不同的推理引擎上。这样,在Jena中,也可以使用RACER、FaCT、Pellet这样更专业些的推理机。

4 基于领域本体语义信息检索的研究现状

综观国内外的研究现状,可以发现:国外的本体理论研究日趋成熟,理论体系正在逐步完善。国内的研究水平相对滞后,大都还停留在翻译、综述国外研究的水平上,具有独立创新性的研究很少。
现在,虽然本体构建工具和方法体系已比较多,但没有一个完全成熟的、可以进行真正的自然语言检索的、基于本体的语义检索工具。即使是具有较佳推理功能的Cyc本体系统,也只能识别用CycL写成的断言,而后才可以进行推理。目前,本体技术在信息检索中的应用研究主要存在的问题可以归纳为以下几点[3]:
1) 缺乏构建领域本体的成熟流程、方法和标准规范。
2) 研究本体构建的技术体系与研究检索的技术体系之间存在脱节问题。
3) 直到目前为止,国内还没有基于本体检索系统投入运行和使用的报道,本体技术在信息检索中的应用研究大都停留在综述,翻译的层次上。
4) 构建基于本体的检索系统,其瓶颈在于基于本体的语义标引仍然只能采用极为耗时的手工标引才能保证标引的精确性。
5) 多语种问题仍然困扰着围绕本体系统所进行的各种开发、继承和复用。
6) 本领域的国内学者对自己的研究成果宣传力度不够,交流合作较少,良好的研究氛围还未形成。
综上所述,本体研究目前仍处于理论研究日趋成熟,应用研究相对滞后的
阶段。
文献[7]认为,新一代的基于本体的语义检索应用系统的发展方向,主要体现在三大方面:
l) 对用户请求的本体表达化,使得要查询的概念不存在模糊不清的地方。具体表现在用户向搜索引擎提出查询请求后,系统能将查询请求中的本体提取出来,然后进行基于本体的语义搜索。另一种方式是搜索引擎系统能对用户如何更好地利用系统提供的本体知识智能地给予搜索提示,帮助用户更好地使用本体进行查询搜索。
2) 能找出查询文本其中隐含的语义。搜索系统如何更快速更准确地确定用户查询请求中隐含的语义这是一个重要的问题,解决这一问题对查询的查全率和查准率是至关重要的。
3) 具有软件代理,能执行复杂工作,如在WEB上搜索时采用智能决策。如何在错综复杂的网页里查询到所需网页这需要查询系统能确定一个较为快速和准确的算法,并且能自动地识别出网页与查询本体之间的相关度,确定查询结果[5]。

结 论

随着Internet上信息的海量增长,目前的信息检索系统己无法满足用户的信息需求,如何改进当前的信息检索系统来满足用户日益增长的信息检索需求,己经成为一个非常重要的问题。
本文在查阅大量期刊、学位论文的基础上详细介绍了基于领域本体的语义信息检索。本文主要分为四个部分:第一部分介绍了信息检索和本体的相关理论,并针对目前信息检索存在的问题提出了解决的方法——基于本体的信息检索;第二部分阐述了基于领域本体的信息检索的设计思想和系统结构;第三部分根据系统结构详细介绍了基于领域本体的语义检索的关键技术;第四部分介绍了课题的研究现状。
本体作为共享的形式化概念模型,具有良好的概念层次结构和对逻辑推理的支持,把本体融合到传统信息检索技术中去,不仅可以继承传统的概念信息检索的优点,还可以克服传统信息检索中不能对概念关系进行处理的局限性。
本文尝试将本体技术引入信息检索系统中,使得传统信息检索系统语义化,能够更加明确用户真正的信息需求、更加理解信息资源的真正语义,使信息资源与用户信息需求在语义层次上进行匹配,从而提高信息检索系统的查准率和查全率。
然而,本体的理论和应用研究正处在开发研制阶段,还有许多难题亟待解决。例如本体与信息检索系统之间的接口的处理、构建完备的面向特定领域的本体还正在实践探讨,等等[3]。

参 考 文 献

[1] 刘爱军. 基于领域本体的语义信息检索及相关技术研究[D]. 西安:西北大学,2008.
[2] 毛平. 基于领域本体的文本信息语义检索研究[D]. 南京:南京理工大学,2007.
[3] 廖军. 基于领域本体的信息检索研究[D]. 长沙:中南大学,2007.
[4] 领域本体的构建及其在信息检索中的应用研究[D]. 北京:北京邮电大学,2007.
[5] 许浩. 基于本体论的语义检索技术的研究与实现[D]. 南京:南京理工大学,2007.
[6] 李 景,苏晓鹭,钱 平. 构建领域本体的方法[J]. 计算机与农业,2003(7): 7-10.
[7] 栗艳,丁二玉,骆斌. 基于Ontology的语义检索技术[J]. 计算机工程与应用,
2005(28):156-159.
[8] 翟林. 领域本体的半自动构建方法研究与实现[D]. 南京:东南大学,2005.
[9] 陈建. 领域本体的创建和应用研究[D]. 北京:对外经济贸易大学,2006.
[10] 花开明,陈家训,杨洪山. 基于本体与元数据的语义检索[J]. 计算机工程,2007,33(24):220-222.

[/b]
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: