您的位置:首页 > 理论基础 > 计算机网络

网络信息检索的方法和技巧

2015-08-03 11:47 483 查看
布尔逻辑检索

布尔逻辑检索也称作布尔逻辑搜索,严格意义上的布尔检索法是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最高。布尔逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。

用“AND”与“ *”表示。可用来表示其所连接的两个检索项的交叉部分,也即交集部分。如果用AND连接检索词A和检索词B,则检索式为:AANDB(或A*B):表示让系统检索同时包含检索词A和检索词B的信息集合C。

如:查找“胰岛素治疗糖尿病”的检索式为: insulin (胰岛素)anddiabetes(糖尿病)。[1]

用“OR”或“+”表示。用于连接并列关系的检索词。用OR连接检索词A和检索词B,则检索式为:AORB(或A+B)。表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B的信息。如:查找“肿瘤”的检索式为:cancer(癌)ortumor(瘤)orcarcinoma(癌)orneoplasm(新生物)。[1]




用“NOT”或“—”号表示。用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:ANOTB(或A—B)。表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。

如:查找“动物的乙肝病毒(不要人的)”的文献的检索式为:hepatitis B virus(乙肝病毒)nothuman(人类)。[1]


With

用“With”表示。用于表示同时出现在同一文献的一个字段的两个词,用With连接检索词A和检索词B,检索式为:“Awith B”。表示检索词A和检索词B不仅要同时出现在一条记录中,还要同时出现在一个字段里的文献才是命中文献。

如:drug(药物) withabuse(滥用),检索出的是同一个字段中同时出现这两个词的记录。[1]


Near

用“Near”表示。用于表示不仅要同时出现在一条记录的同一字段里,还必须在同一个子字段(一句话)里的两个词,用With连接检索词A和检索词B,检索式为:“ANearB”。表示检索词A和检索词B不仅要同时出现在一条记录中的同一个字段里,还要同时出现在同一个子字段(一句话)里的文献才是命中文献。如:drug(药物) Near abuse(滥用),检索出的是同一句话中同时出现这两个词的记录。(也可说成是两个词之间没有句号的文献)。[1]


Near#

用“Near#”表示。其中“#”代表一个常数,,用Near#连接检索词A和检索词B,检索式为:“A near# B”表示检索词A和检索词B之间有0~#个单词的文献(A和B在同一记录、同一字段里)。在near后加一个数字,指定两个词的邻近程度,且不论语序。如:information (信息检索near2retrieval(数据),表示检索词
information和retrieval同时出现在一个句子中,且这两个检索词之间的单词数不超过两个的那些文献为命中文献。[1]

在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。复合逻辑检索



布尔逻辑检索
式中,运算优先级别从高至低依次是not、and、near、with、or,可以使用括号改变运算次序。

如:(A or B) and C先运算(A or B),再运算and C

检索中逻辑算符使用是最频繁的,逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。[1]


位置检索

位置检索也叫临近检索。文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。

按照两个检索出现的顺序相距离,可以有多种位置算符。而且对同一位置算符,检索系统不同,规定的位置算符也不同。以美国DIALOG检索系统使用的位置算符为例,介绍如下。


1(1)“(W)”算符编辑

“W”含义为“with”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。“(W)”算符还可以使用其简略形式“()”。例如,检索式为“communication (W) satellite”时,系统只检索含有“communication
satellite”词组的记录。


2(2)“(nw)”算符编辑

“(nw)”中的“w”的含义为“word”,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符号。例如:laster (1W) print课检索出包含 “laser printer”、“ laster color printer”和“ laster and printer”的记录。


3(3)“(N)”算符编辑

“(N)”中的“N”的含义为“near”.这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。


4(4)“(nN)”算符编辑

“(nN)”表示允许两词间插入最多为n个其他词,包括实词和系统禁用词。


5(5)“(F)”算符编辑

“(F)”中的“F”的含义为“field”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。


6(6)“(S)”算符编辑

“(S)”中的“S”算符是“Sub-field/sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如“high (W) strengh (S) steel”表示只要在同一句子中检索出含有“high strengh 和 steel”形式的均为命中记录。


目录

1分类

后截词
中截词

2截词检索方式

有限截词

中间截词
无限截词

3其他检索方式

布尔逻辑检索(Boolean)
词组检索(phrase)

截词检索(truncation)
字段检索(fields)
位置检索


1分类编辑

在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。
截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。
不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:
(1)后截断,前方一致。如:comput?表示computer,computers,computing等。
(2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。
(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。
截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。


后截词

是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括:
(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此,book?可检索出包含有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录。
(2)无限后截词 主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个"?",表示无限截词符号。


中截词

中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为"?",即用"?"代替那个不同拼写的字符。
从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。


2截词检索方式编辑

截词检索的方式有多种,可以分为有限截词、无限截词和中间截词。


有限截词

有限后截词主要用于词的单、复数,动词的词尾变化等。将“n”个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。


中间截词

一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。例如:wom?n woman women


无限截词

截去某个词的尾部,是词的前方一致比较,也称前方一致检索。在检索词(关键词、主题词)干后加1个截词符 “?”或“*”。表示该词尾允许变化的字符数不受任何限制。例如:comput* 可检索出 computer、computing、computers、computering、computeriation 等词的记录。 任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率。另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。


3其他检索方式编辑


布尔逻辑检索(Boolean)

对于常见的三种布尔逻辑算符AND,OR,NOT,在搜索引擎中,该功能则表现不同。首先是受支持的程度不同,"完全支持"全部三种运算的搜索引擎有InfoSeekAltaVistaExcite等;在其"高级检索"模式中"完全支持",而在"简单检索"模式中"部分支持"的有HotBotLycos等。其次是提供运算的方式不同:大部分搜索引擎采用常规的命令驱动方式,即用布尔算符(AND,OR,NOT)或直接用符号进行逻辑运算,如
AltaVista、Excite;有的用“十”和“一”号替代“ AND/NOT”进行运算;也有部分引擎使用菜单驱动方式,用菜单选项来替代布尔算符或符号进行逻辑运算,如 HotBot,Lycos中均提供了两个菜单"All the words"和"And of the words"分别代表 AND和OR运算,天网的"精确匹配"、"模糊匹配"原理与此相似。


词组检索(phrase)

词组检索是将一个词组(通常用双引号""括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了临近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。几乎所有的搜索引擎都支持词组检索,并且都采用双引号来代表词组,如"信息教育"。但在Infoseek中,除了用双引号外,还使用了短横线"-"来代表词组,如
digital-library-definition,区别在于以"-"表示的词组不区分大小写。


截词检索(truncation)

截词检索也是一般数据库检索中常用的方法。但在一般的数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽4种形式。而在搜索引擎中,目前多只提供右截法。而且搜索引擎中的截词符则通常采用星号*。如educat*。相当于education+educational+educator。


字段检索(fields)

字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。在搜索引擎中,字段检索多表现为限制前缀符的形式。如属于主题字段限制的有:Title,Subject,Keywords,Summary等。属于非主题字段限制的有:Image,Text等。作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup)和
E-mail限制等。这些字段限制功能限定了检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,字段限制检索可以用来控制检索结果的相关性,以提高检索效果。在著名的搜索引擎中,目前能提供较丰富的限制检索功能的有 AltaVistaLycosHotbot等。


位置检索

在搜索引擎中,能提供位置检索的的较少。如AltaVista,而且它能提供的位置运算目前也只有一种,即临近位置运算(Near运算),不如常见数据库检索丰富。
字段限制检索
将检索词限制在某一字段中,检索时,计算机只对限定字段进行运算,已提高检索效果。常用的检索符号有in\=\<\><=\>=
例如,限定某字段中检索,后跟一个字段名,如appple in ti(ti表示题目字段),表示检索出的文献中“apple”一词
括号检索
用于改变运算的先后次序,括号内的检索式做优先运算。用“()”可以表示优先级。例如,比较“(GPS OR GIS)AND China”和“GPS OR GIS AND CHINA”。
在几个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序或体现概念的完整性。

版权声明:本文为博主原创文章,未经博主允许不得转载。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: