您的位置:首页 > 其它

《实体解析与信息质量》-1.2.4.实体身份管理

2015-03-06 10:54 162 查看

实体身份管理

ER中另一个很重要的概念就是实体身份。根据Lim,Srivastava,Probhakar and Richardson(1993)的定义,实体身份就是该实体的一系列属性值,在特定上下问中,通过一定的无差别的规则,可以通过这些属性将该实体与其他所有同类实体区分开来。从这个定义似乎可以得出,ER过程总是可以通过对这些身份属性进行匹配来完成。然而还有以下这些原因是的直接匹配无法总是称为ER过程的完美解决方案的原因:

· 要处理的实体量总是在不断的增加。为一个100条实体的库所选择的用于区分实体的身份属性,在200条实体组成的库中可能不再有效。

· 实体属性值并不总是正确或标准的数据。拼写错误,遗漏的值,默认值或是别名的存在,都对直接匹配系统是一个挑战。

· 不是所有引用中都包含了所有的属性值。引用通常都是实体本身的所有属性在虚拟世界中的一个投射。在上一节我们讨论的例子中,尽管OakSt.的MaryJohns和ElmSt.的MarySmith并不能直接匹配,然而如果我们能够发掘出关于该实体的其他属性值,比如说社会保障号,我们还是有可能将其断定为等价,并链接在一起的。

在一个比较小的场景中,比方说一家小公司里,一个人的名的首字母加上姓的前六个字母(举例:jsmith@abc.com)便足以在所有员工中识别出JohnSmith的身份。然而,一旦基数增加,便会需要额外的属性值,才有可能识别某个实体。举例来说,以所有美国人为基数,即使是将所有名和姓都加在一起,甚至是再加上出生日期,也不足以识别一个实体。对于任意一种姓名的组合方式,都很有可能有不止一个人使用这个名字。对于一些常见名来说,冲突的可能性就更大了。

身份解析

身份解析是利用已知实体信息来解析引用的ER过程。在通常的ER场景中,解析过程通常是针对来自同一个输入源的不同引用。而在身份解析的场景中,该引用之一总是来自那些已知的实体—即用输入的引用来和由系统维护的实体集做比对。

如果这一组实体集是客户类型的,那么这个过程就被称为客户识别。客户识别系统就是根据系统已知的客户记录集来判断某个实体引用是否在该集合中存在的ER过程。那些可以做到实时的客户识别的系统为公司提供了强大的CRM工具。举例来说,对于一个呼叫中心的服务来说,如果在客户打入电话时,便能通过客户的电话号码实时的找出该客户的相关信息并显示给接话员,那么接话员便能利用这些机会来改善用体验,从而对公司业务产生巨大价值。

身份解析技术也可以被用来做实体解析,只需要确保每次的实体引用解析时都有一个实体是来自已知实体集的即可。如果两个引用都被识别为系统中已知的实体,那么显然这两个引用那么等价(都指向同一个实体)或非等价(指向不同实体)。如果其中一个引用被识别为系统已知实体的等价引用,另一个引用未能识别,则显然这两个引用非等价。利用身份解析来进行实体解析只当两个引用都无法与系统中的已知实体进行匹配时,才无法起作用。对于某些应用来说,这并不是个问题。举例,处理学生的考试成绩时,通常会基于这样的假设,即该学生必然属于在学校注册了的学生集合,系统只需要决定是哪一个就行。在类似这样的情况中,身份解析的结果必然也是实体解析的结果。

然而将两个条件对调一下,则未必成立。即使是即使无法识别任意一个引用的身份,我们依然可以做出两实体是否等价的判断。举例来说,假设有两条都指向JohnSmith的引用,如果其中一个JohnSmith的年龄是30岁,而另一个是60岁。那么很显然,它们是非等价的引用。发现两实体并非等价的操作,被称为消歧(Disambiguation)。然而在这个例子中,两条引用都没有被识别出来,因为有许多30岁叫JohnSmith的人,也有许多60岁叫JohnSmith的人。这种情况和犯罪调查的指纹应用十分相似。像指纹或DNA这种有生命实体固有的属性被称作生物特征(biometric
attributes)。相应的,姓名和地址这种因情况而定的属性则被称为生活特征(biographicalattributes)。

如果在犯罪现场发现两组指纹,那么对这两组指纹的对比可以证明它们是否属于同一个嫌疑犯-即实体解析的过程。然而,识别出该嫌疑犯还是要取决于该他的指纹是否在存在于某个已知人群的指纹数据库-即身份解析的过程。通过这样的比较,我们可以看出,实体解析与身份解析并不相同。

ER基本原则 #6:实体解析与身份解析并不相同,身份解析不过是ER的一种形式。
身份信息在ER系统中扮演了重要的角色,无论该ER系统是否是基于身份解析操作的。对于身份信息所扮演的角色,需要牢记实体解析的基本定义:在给定上下文中,一组能够将之与其它实体识别的规则和属性。以及ER的基本原则#1:即ER系统对实体的引用进行操作,而非实体本身。

任何一个现实中的实体,都有着无数的属性。举一个简单的产品的例子:塑料水杯。一个塑料水杯可以拥有无数的可以用于当作属性的物理度量,更不用说那些描述性的属性比如风格,制造商,UPC,存号等等。然而,对于任意一个指定的应用,为了能够在系统中识别出某个实体,该系统的建模师或是架构师,只能选取有限的一些属性来完成。不同的系统设计者会做出不同的选择。对此,这个塑料水杯的生产厂家所选择的属性,与采购了该水杯的批发商,以及为购买该水杯的客户生产的系统所做出的选择,都会完全不一样。

任何一个系统都努力为其产品目录中的每一个物品创建与该目录中的其他物体独立的身份信息。当该产品目录中的物品发生改变时,对于身份信息的需求也会相应发生变化。从ER的角度来说,由于不同的系统使用不同的身份属性来区分实体会导致许多问题。CDI系统由于客户的身份信息由其联系方式来决定,这些问题更显得尤为突出。

社交网络与互联网营销的出现,对于那些使用传统CDI系统来处理客户诸如姓名,地址,电话和传真等的联系信息的公司来说,即使机遇,也是挑战。许多客户现在有各种网络上的身份信息,然而对这些信息的收集和链接,比传统的联系方式更加困难。在第七章的时候,我们会更详细的讨论关于在社交网络中如何ER活动的新兴研究方向(Bilgic,Licamele,
Getoor, Shneiderman, 2006)。

身份信息的内部视图和外部视图

术语内部视图和外部视图可以用来描述这个情况(Talburt,Zhou, Shivaiah, 2009)。图1.6阐述了一个为名叫MarySmith的女性的姓名和地址信息变更历史的一些基本元素。由于这些记录说明了该女性的居住地址,因此也被叫做定居历史(occupancy
history)。图1.8展示了三条居住记录,每条中包括了人们,地址以及定居的有效时间。需要注意的是,在居住1和居住2之间,姓名发生了改变。



图1.8居住历史记录
有两种方式来看图1.8中的身份识别问题。一种是从生活特征开始研究--举例来说, Mary Smith,女性,生于1980年11月3号,AnyTown,纽约,父母姓名分别为Robert和Susan
Smith—随着时间的变化,身份信息中的姓名和地址不断的变化着。这种身份信息的内部视图表示了Mary Smith本人对自己的身份信息的变更历史的一种洞察。当然,她的兄弟姐妹或是其他某个非常近的亲属,也可能对这样的信息非常了解。身份信息的内部视图表达了一种对于某一组特定身份属性的封闭的通用模型,其所有的属性值对于内部观察者来说都是已知的。对于那些内部观察者未知的属性值,则可以断定必然属于另一个不同的实体身份。用于处理这样的信息的ER系统总是可以正确的识别出给定的姓名和地址引用是否属于某个实体。

另一方面,身份信息的外部视图则代表了作为一个外部观察者,它将有关该实体的许多属性值收集起来,但却并不确定这些属性值是否完全,甚至无法确定它们是否正确。当一个基于外部视图的系统获得一条引用时,这个系统必须做出决定:即这条引用是否指向了系统已知的某个实体,又或是指向了一个新的实体。由于系统无法假设其拥有关于该实体完整的身份信息知识,因此,身份信息的外部视图与内部视图不同,它代表了一种开放式的通用模型。

举例说明,假设某个系统只包含图1.8中的实体的定居记录1和2,这样的一个系统对于该实体的知识因而是不完全的。原因有可能是因为定居记录3还尚未被系统录入,又或者是已经在系统中了,但却没能与记录1和2链接。后者,该系统将把定居记录3当作指向不同实体的身份信息。虽然作为一个内部观察者,可以很轻易的看出定居记录3其实是图1.8中的实体的一部分,然而,作为软件系统,尚未能够得出这样的结论。

除了不完全性导致的问题,该系统还有可能对该实体产生一个不准确的视图。当有一条新的定居记录进入系统时,系统有可能将其错误的链接到一条不属于它的已知实体。ER和IQ之间的紧密纽带在对信息的准确性和完整性的要求上体现出来。在Wang-Strong
Framework (Wang, Strong, 1996) 中,准确性和完整性不过是信息质量的16个维度中的两个。

在基于外部视图的系统中,系统通过比较实体的不同身份视图来将它们链接起来。换句话说,该系统通过实体身份信息一点一点的建立起它的知识库。身份信息的外部视图跟一些商业或是政府部门利用ER工具将他们的客户记录链接成单一视图的操作十分相似。

所有的ER系统都在一定程度上使用身份信息来解析引用,然而并不是所有的ER系统都具备身份信息管理的功能。举例来说,最简单的ER形式是采用了整合-清洗流程的系统,通过假设相对匹配的属性值决定着引用是否等价,并赋予相同链值来使用身份信息。在整合-清洗过程的结尾,系统将产生一个实体的外部视图:即一系列被断定等价的引用合并的属性值,放入同一个文件。然而,一旦整合-清洗过程结束,这些身份信息便被丢弃掉。整合-清洗系统并不为后续处理保留和管理实体身份信息。每个整合-清洗过程都从头开始来收集身份信息。这些知识是临时的,仅仅在处理的过程中才存在。

身份管理

ER系统中的身份管理在许多场景中会发生。在一个身份解析系统中,它发生在当系统预先加载一组身份信息时。而在一个身份捕获系统中,它则发生在系统从当前正在处理的引用中获取所有或部分的实体身份信息时。有以下几个原因使得支持身份管理的ER系统拥有重大优势,因为其可以:

· 维护持久的链值

· 允许事物级别的处理

· 不仅可以通过直接匹配来链接记录,还可以使用联想分析和等价断定

由于整合-清洗过程并不保留身份信息,因此它赋予每个引用的链值也是临时性的。如果两个等价引用分别两次被传递给这样的过程,那他们被在这两次中被赋予的链值便不大可能恰好相同。根据ER系统的定义,当且仅当两个引用等价时,他们会被赋予相同的链值。尽管这个定义并不要求ER系统每次都返回相同的链接,但是那些这么做的系统被认为提供了持久链值(Persistent
link values)。如果一个ER系统支持持久链值,则说明,同一个引用不论何时进入该系统,都会被赋予相同的链值。

持久链值的关键就在于身份管理。举例来说,身份解析系统之所以能够提供持久链值,便是因为其工作在一组已知的实体上,而每个实体都有着自己唯一的ID。当某个引用被识别出与某个已知实体等价时,该实体的ID便被用作链值并被赋予该引用。只要该实体的ID不变,同一个引用便总是能得到同一个链值。

ER基本原则#7:提供持久链值的ER系统必然要实现某种形式的身份管理
即使是非身份解析的ER系统也可以支持持久链值。它可以通过对身份信息进行存储来加速处理过程,可以理解为是一种“智能的”整合-清洗过程。能够在处理引用的过程中创建实体身份的ER系统被称为身份获取系统
(identity capture systems) 。如果作为实体以及其属性值是提前已知的,身份解析系统便可以建立起关于实体身份的内部视图。除此之外,其它的ER系统则被设计为通过外部视图来获取并保存身份信息。也就是说,身份获取系统在初始状态是不包含任何身份信息的。当它开始处理第一条引用时,这条引用的身份信息便会被保存为系统的第一条身份记录并被赋予身份ID。如果下一次这条引用再次被加载到系统中,该系统便会识别出这条引用属于之前已经被识别的身份记录,并且将同样的链值赋给该引用,即身份ID。

虽然从定义的角度来看,将ER理解为链接两条等价实体引用十分简便,但上面的这些例子说明,绝大多数的ER系统并不以引用对作为输入。整合-清理过程被定义为以一种批量处理的方式执行,但除此以外,大多是ER系统以一种实时的方式来每次处理一条实体引用。而对于支持身份管理的系统,作为输入的实体引用将会与系统中保存的实体身份进行比较,并判断是否与某个身份记录等价。对于那些管理着大量的身份记录的系统,将输入的实体引用与每条记录都进行比较显得不切实际并且没有必要。这些系统通常会采用某种方式将“候选记录”的集合进行收缩,只选取最有可能与输入引用等价的那些。这也是那些异构关联系统或是路由系统的工作方式。通过对不同的数据库使用不同的查询语句,那些候选记录会从各个系统中抽取出来。

另一方面,大多数ER系统通常都会给输入引用添加一个链值。即使是在整合-清洗的系统中,它的输出也是一个对每条记录都添加了链ID的输入文件。当然,也有例外的情况,在有些ER系统中,尤其是那些执法部门,会选择提供一个图形界面而不是链值添加服务。因为这些系统更倾向与将所有最有可能的等价记录交给用户来做出最终决定。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: