您的位置:首页 > Web前端

Effective keyword-based Selection of Relational Databases(未完成)

2010-01-09 18:44 267 查看
第一篇论文小结,估计只能以翻译为主了。

作者:Bei Yu、Guoliang Li、Karen Sollins、Anthony K.H. Tung

发表会议:sigmod 08

一、简介

基于关键词的关系数据库信息检索成为一个热点技术,结合了数据库技术和信息检索(IR)。用户不需了解数据库的结构和SQL等数据库操纵语言,像使用搜索引擎一样,只需要输入关键字的信息,就能查询到数据库里的信息。已有的基于关键词的数据库检索系统有:DBXplorer、Discover、Banks等。

随着p2p网络和面向服务的体系结构的发展,将这一技术推广到分布式数据库成为一个新的研究热点。最简单的方法:将请求发到每个数据节点,然后各个节点上使用已有的基于关键词的数据库检索技术进行查询,再将查询结果返回到某中央处理节点上,然后把结果返回给用户。这种方法对于网络传输压力大,而且浪费了数据节点的资源。因为并不是每个数据库里,都能查到有效的信息。

本论文的贡献:

1、每个数据库生成summary,存储一些关键信息。

2、根据summary,提出了一种目标数据库选择算法。

3、关键词技术在分布式数据库的第一次研究。

二、核心算法

1、关键词关系矩阵(KRM:keyword relationship matrix)

m是关键词的个数(元组包含有的), n是元组的总个数

a、矩阵D(m*n):

D = (dij)m*n ,表示keyword是否在tuple中出现,1:出现,0:不出现。

b、矩阵T(n*n)

T = (tij)n*n ,表示tuple间是否有关系,也就是外键连接关系,1:有,0:无。

c、矩阵R(m*m)

(公式无法编辑,图也不能上传。哎,等今后再贴图。)

表示的是关键词ki和kj的一些关系:比如在各种distance下,ki和kj能够join起来的个数。等等。

2、KRM的计算

3、用SQL实现上述算法

还没完全看懂,暂且留空。

4、数据库选择

score(DB,Q)=sigma score(Ti, Q)。

一个DB里,会返回多个结果,计算其分值和作为这个DB的得分。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐