您的位置:首页 > 理论基础 > 计算机网络

马尔科夫逻辑网络(Markov logic network)

2013-09-01 22:57 417 查看
1 introduction    

    马尔科夫逻辑网络是将马尔科夫网络与一阶逻辑相结合的一种全新的统计关系学习模型,在自然语言处理、复杂网络、信息抽取等领域都有重要的应用前景。本文将简单的介绍马尔科夫逻辑网络的理论模型,对后续学习马尔科夫逻辑网络的推理和学习做一些铺垫。

    在如何有效的处理复杂性和不确定性问题的研究中,国内外学者近年来先后提出了统计关系学习(Statistical Relational Learning, SRL)[2, 3, 4]和概率图模型(Probabilistic Graphical Model, PGM)[5, 6]等重要方法,并引起了极大关注。简单地说,统计关系学习通过集成关系/逻辑表示、概率推理、不确定性处理、机器学习和数据挖掘等方法,以获取关系数据中的似然模型。目前,关系/逻辑表示仍以一阶谓词逻辑为主,用以紧凑表达领域知识和有效处理逻辑问题;而概率图模型则是一种通用化的不确定性知识表示和处理方法,主要涵盖了贝叶斯网络(Bayesian
Networks, BNs)、隐马尔科夫模型(HiddenMarkov Model, HMM)、马尔科夫决策过程(Markov Decision Process,MDP)、神经网络(Neural Network, NN)等。一个很自然的想法是将统计关系学习(尤其是关系/逻辑表示)和概率图模型进行综合集成。2004年美国华盛顿大学的Richardson和Domingos[2]首次提出了马尔科夫逻辑网络(Markov Logic Networks, MLNs,以下简称Markov逻辑网),并论证了Markov逻辑网作为统计关系学习的统一框架的可能性[2]。其主要理由如下:一方面,从概率统计的角度来看,Markov逻辑网不仅为简洁明了地描述庞大的Markov网(Markov
Networks, MNs)提供了一种紧凑有效的手段,而且它还能够灵活地在Markov网中融入模块化知识域的能力;另一方面,从一阶谓词逻辑的角度来看,Markov逻辑网给一阶谓词逻辑加入了出色的不确定性处理能力,并且能够容忍知识域中存在的不完整性和矛盾性等问题。因此,统计关系学习中的许多重要工作(如聚合分类、关系预测、社会网络及目标识别等)都可统一到Markov逻辑网的体系中来。鉴此,当前国际人工智能界普遍公认Markov逻辑网是一种较完美地结合一阶谓词逻辑和概率图模型的复杂性和不确定性问题表示和处理方法,具有十分重要的研究价值和广阔的应用前景,已成为人工智能、机器学习、数据挖掘等领域的研究热点。

2 Markov Logic Network

2.1 Markov netwrk和一阶逻辑

    Markov网[7]也称Markov随机场(MarkovRandom Field, MRF)[5],是一组变量集合X=(X1,X2,…Xn)∈x的联合分布模型。它由一个无向图G和定义于G上的一组势函数组成。其中,无向图的每个节点都代表一个随机变量,而G中的每一个“团”(Clique)都对应着一个势函数(为非负实函数),表示团的一个状态。Markov网所代表的变量集的联合分布表示为:

     

                       (1)

其中,x{k}表示Markov网中第k个团的状态,即对应于第k个团中所有变量的取值状态。Z是归一化因子。通常,式(1)表示为对数线性模型,以便于对Markov网中蕴含的实体特征进行具体化,并使得推理和学习等过程更加方便。若把Markov网中每个团的势函数表示为指数函数,指数项为对应团的加权特征量,可得:

     

                        (2)

其中,wj表示权重,fi(x)表示特征函数。从用势函数表达的式(1)来看,可直观地认为每个特征量对应于一个团的某一状态,即团中变量集的一个取值,且该特征量的权重等于



    一阶谓词知识库[7]由若干一阶谓词规则组成。一阶谓词规则由四种类型的符号组成,即常量、变量、函数和谓词。其中,常量指定义域里一个简单的对象;变量可以指定义域里若干对象;函数(如SonOf())表示一组对象到一个对象的映射;谓词指定义域中若干对象之间的关系(如Friends()),或者对象的属性(如Red())。变量和常量可以有类型。一个类型的变量仅能从定义类型的对象集中取值。一个项可以是任意地表示一个对象的表达式,如SonOf(x)。原子是作用于一组项的谓词(如SonOf(x,BrotherOf(y)))。一个常项是指没有变量的项。一个闭原子(ground
atom)或闭谓词(ground predicate)是指所有参数均为常项的原子或谓词。一般地,规则是从原子开始,用连接词(如蕴含关系、等价关系等)和量词(如全称量词和存在量词)递归地建立起来。在Markov逻辑网中,通常把规则表示成从句形式。一个可能的世界(a possibleworld)是指给所有可能出现的闭原子都赋予了真值。

2.2 Markov逻辑网的定义和示例

一阶逻辑知识库可看作是在一个可能世界的集合上建立一系列硬性规则,即如果一个世界违反了其中的某一条规则,那么这个世界的存在概率即为零。Markov逻辑网的基本思想是让那些硬性规则有所松弛,即当一个世界违反了其中的一条规则,那么这个世界存在的可能性将降低,但并非不可能。一个世界违反的规则越少,那么这个世界存在的可能性就越大。为此,给每个规则都加上了一个特定的权重,它反映了对满足该规则的可能世界的约束力。若一个规则的权重越大,则对于满足和不满足该规则的两个世界而言,它们之间的差异将越大。Markov逻辑网的定义如下:

定义1[7] Markov逻辑网L是一组二元项(Fi,wi),其中,Fi表示一阶逻辑规则,wi是一个实数。这组二元项(Fi,wi)与一组有限常量集C={c1,c2,…cn}一起定义了一个Markov网

:

(1)L中的任意闭原子(ground atom)都对应了

中的一个二值节点。若此闭原子为真,则对应的二值节点取值为1;若为假,则取值为0。

(2)L中的任意闭规则(ground formula)都对应着一个特征值,若此闭规则为真,则对应的特征值为1;若为假,则特征值为0。并且这个特征值Fi的权重为二元项中该规则对应的权重wi。

由定义1可知,Markov网,

的节点是由Markov逻辑网L中每个闭原子生成的,而边是由闭原子之间的关系生成。因此,Markov逻辑网可看作是一个用以生成Markov网的模板。给定相同的Markov逻辑网和不同的有限常量集合C,可以产生不同的Markov网,并且这些Markov网在规模上的差别可能会非常巨大。但是,从同一个Markov逻辑网中产生的不同Markov网在结构和参数上都有若干共同点。比如,有相同的团的数目;同一个规则的所有可能的常量取值有相同的权重,等等。根据这种方式产生的每一个Markov网,可称为闭Markov
4000
网(groundMarkov
network)。从上述Markov逻辑网定义和式(1)、式(2)可知,一个闭Markov网中所蕴含的可能世界x的概率分布为:

   

                                
(3)

其中,ni(x)表示关于规则的取值为真的对应闭规则的个数,x{i}表示出现在规则Fi中的原子集合的状态,且

。式(3)中的第一个等式给出了Markov逻辑网的对数线性模型,而第二个等式采用了等价的势函数乘积形式。

从Markov逻辑网的定义出发,很容易得到一个图结构:当两个节点所表示的闭原子出现在同一个闭规则之中时,这两个节点之间存在一条边。显然,所有出现在同一个闭规则里的闭原子组成了一个(可能不是最大的)团。引入变量的类型可以将变量的取值范围限定在常量集合的子集中,从而极大地减小由Markov逻辑网产生的闭Markov网的规模,然而,即使采用该方式,所产生的闭Markov网依旧可能非常庞大。因而,在Markov逻辑网中推理不可能生成整个闭Markov网。

一个简单的Markov逻辑网实例如表1所示,该Markov逻辑网包含两个二元项( F1, 1.5), (F2, 2.2)。值得注意的是,如果一个规则包含多个从句,那么这些从句将平分该规则的权重[7]。



在表1中,x和y分别表示个体变项,Sm(x),Ca(x)和Fr(x,y)是谓词,分别表示x吸烟与否、x患癌症与否、x与y为朋友与否。规则F1表示吸烟致癌,规则F2表示若x与y为朋友,则他们的吸烟习惯相同。由表1可知,规则F1和F2的权重分别为1.5和2.2,规则的权重指出了满足该规则的世界和不满足该规则的世界之间的对数差异。例如,在其它条件相同时,n个抽烟的人不患癌症的概率比所有抽烟的人都患癌症的概率小。当给定个体常项集合C={A,B}时,则生成图1所示的闭Markov网[7]。

 


 

图1所示的闭Markov网中有六个团。例如,对应于闭规则Sm(A)=>Sm(B)的团是{Sm(A), Ca(A)},其相应的权重是1.5。需特别指出的是,对应于同一规则的团具有相同的权重。

3 Markov Logic Network 的应用

    当前,Markov逻辑网备受国内外人工智能、机器学习等领域研究学者的广泛关注[8]。多年来,Domingos研究团队不断地完善Markov逻辑网的理论体系[7],并提供了一个学习和发展该理论体系的平台Alchemy。Markov逻辑网作为统计关系学习的统一框架,其应用前景十分广阔。Domingos研究团队在实体解析、信息抽取、社会网络、语义网络、自然语言处理、分子生物学等方面的实践充分证明了Markov逻辑网的实用价值。

    国际上,其它研究团队也将Markov逻辑网应用到了自然语言处理、地理信息系统和计算机视觉等方面。在自然语言处理领域,Fiona等人利用Markov逻辑网进行文本知识抽取和语义理解,Yu等人利用Markov逻辑网进行中文命名实体识别(Chinese Named Entity Recognition, Chinese NER),并取得了较好的效果,Cheng等人将Markov逻辑网运用于主题发现,Aron 等人]利用Markov逻辑网来处理信息抽取中的指代消解问题。在地理信息系统领域,Lin利用Markov逻辑网来识别基于位置的活动。在计算机视觉领域,Markov逻辑网也显出其应用优势。

    在国内,吉林大学刘大有教授的科研团队较早跟踪Markov逻辑网的研究,其发表的论文为国内有志进入该领域的研究者积累了十分宝贵的经验。于鹏等人针对Markov逻辑网学习中采用确定性优化方法时经常出现所求的解不够简洁且易陷入局部极值问题,定义了谓词模板、子句模板以缩小搜索空间,提出了一种采用子句模板编码的遗传算法来学习Markov逻辑网的结构,并用粒子群算法(PSO)学习Markov逻辑网的权参数。孙舒杨等人针对伪似然估计方法存在的主要不足,即虽然降低了计算复杂度但没有考虑参数的先验分布因素,提出了一种基于后验概率的参数估计方法,该方法采用正态先验分布,用伪似然概率替代似然概率,通过最大化伪后验概率来学习Markov逻辑网的模型参数。张玉芳等人结合了判别式训练的学习算法,以及MC-SAT、吉布斯采样和模拟退火等推理算法,将Markov逻辑网应用于中文文本分类。韩磊等人在进行人体行为分析时,特别是在对两人交互行为进行语义建模的过程中,人工建立了一个表示领域知识的一阶逻辑知识库,并训练Markov逻辑网用以两人交互行为的推理。楼俊杰等人在Domingos等人提出的基于Markov逻辑网的实体解析算法基础上,进一步引入一个可变权重的规则,从而有效地解决了该算法无法处理实体二义性的问题。

 

 

[1] 赵悦. 概率图模型学习理论及其应用. 北京:清华大学出版社,2012.

[2] Richardson, M., Domingos, P. Markov logic: a unifyingframework for statistical relational learning. In: Proceedings of the ICML-2004Workshop on Statistical Relational Learning and its Connections to OtherFields, Banff, Alberta, Canada, July 4-8, 2004,
pages 49-54.

[3] 刘大有, 于鹏, 高滢, 齐红, 孙舒杨. 统计关系学习研究进展. 计算机研究与发展, 2008, 45(12): 2110-2119.

[4] Koller D. Probabilistic relational models. In: Proceedingsof the 9th International Workshop on Inductive Logic Programming(ILP-99).Berlin: Springer, 1999, LANI 1634, pages 3-13.

[5] Jordan, M. I. Graphical models. Statistical Science (SpecialIssue on Bayesian Statistics), 2004, 19(1): 140-155.

[6] Koller, D., Friedman, N. Probabilistic Graphical Models:Principles and Techniques. Cambridge, Massachusetts: The MIT Press,2009.

[7] Richardson, M., Domingos, P. Markov logic networks. MachineLearning, 2006, 62(1-2): 107-136

[8] Domingos, P., Lowd, D. Markov Logic: An Interface Layer forAI. Morgan and Claypool, 2009.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐