您的位置:首页 > 理论基础 > 计算机网络

社交网络中基于位置的影响力最大化 CIKM2015 译文

2015-08-26 21:45 260 查看
社交网络中基于位置的影响力最大化
摘要
这篇文章的目的是通过研究在LBSN平台中基于位置的影响最大化来实现O2O模式上的产品推广。随着O2O环境下存在的消费行为,传统的线上影响力扩散模型不能准确描述产品验收过程。此外,目前现有的影响力最大化研究往往只考虑了线上社交关系,但很少将线下关系考虑进去。本文主要介绍将位置属性加入到影响力最大化参数中,以符合O2O模型的特点。首先,我们提出了一个改善影响力扩散的模型,称之为TP模型,它可以精确的描述在O2O环境下产品验收的过程。与此同时,给出基于位置影响力最大化的定义。然后,我们分析了用户移动性模型并设计了离线影响概率的计算方法。用启发式参数描述影响力,提出了一个名为TPH的基于位置的影响力最大化算法。实验表明TPH算法具有普遍优势。最后,我们致力于研究在特殊情况下TPH算法的表现,MR算法作为补充和实验也证明了其较高的效益。
1、简介
    近年来,社交网络变得日益流行,为人类分享想法、活动和兴趣提供了重要的平台。消息和思想通过社交网络传播迅速,使之成为一个杰出的促进产品和服务的环境。影响力最大化在社交网络中是一个重要问题之一。它的思想来自病毒式营销,利用“口碑”效应的优势来推动产品。影响力最大化可以通过一个算法问题来判断一个确定数量的初始用户在社交网络中通过“口碑”效应
4000
将影响力扩散至最大化。
现有的影响力最大化的研究已经取得了显著的成绩。然而,他们往往只关注在线社交网络,忽略了商业模式的变化,即将线上和线下方面综合起来的趋势。一个称之为O2O的新商业模式的概念,吸引到整个商业链越来越多的注意。O2O代表从线上到线下,这意味着要进行产品线上推广和购买,驱动线下营销和消费。其关键的一点是使线上消费者转移到线下商店购物。不像传统B2C模式下的实物交易,O2O模式的交易主体是生活服务产品,如餐饮和娱乐。
O2O模式为影响力最大化带来了新挑战。正如我们上面所提到的,传统的影响力最大化问题没有关于该产品的推广,而传统的线上影响力扩散模型却无法提供有关产品验收过程的描述。因此,影响扩散过程的因素不仅是在线功能,如拓扑网络,也包含了线下用户的属性,因为用户每天的活动区域和消费地点偏好将极大地影响其接受具有相同位置属性的生活服务产品的概率。同时,影响最大化的目标正从一些方面做改变,即推广需要注意哪些用户更有可能开展地理方面的消费行为,从而获得更高效益。综上所述,营销的线下阶段在O2O环境中可以作为重要内容,我们需要建立影响扩散模型,并找出基于位置的影响力最大化的方法。
O2O模式与基于位置的社交网络(LBSN)有密切的关系。与传统的社交网络不同,LBSN可以跟踪和共享用户位置信息,为用户增添了一种沟通方法。因此由LBSN形成了一种新的社会结构。这种新型的社会结构承载大量的社交网络信息和基于位置的行为信息,LBSN逐渐成为产品推广在O2O模型中一个不可忽视的平台。因此在对基于位置的影响最大化研究中,LBSN将是一个重要的研究环境。
在本文中,我们将专注在O2O模式下基于LBSN真实数据的影响力最大化研究上。一种新的O2O扩散模型会将线上与线下的部分组合在一起,并且给出基于位置的影响力最大化问题的定义。我们会考虑用户的位置属性,并利用历史位置信息去探索用户线下消费行为的位置偏好。最后给出TPH算法和MR算法,并证明算法在解决基于位置的影响最大化问题的效益。
本文的其余部分安排如下:第二节中,提出相关工作;第三节中介绍本文用到的数据集;第四节,我们介绍一种新的影响力扩散模型,并定义了在该模型下基于位置的影响力最大化问题;第五节,我们对用户在线影响概率进行讨论并介绍了其计算方法,在线影响概率在模型和问题中是一个重要的参数;第六节,我们对解决问题的两种算法进行设计,并对其性能进行了评价;第七节,我们对所做研究进行了总结。
2、相关工作
    Domingos和Richardson首次将影响力最大化描述为算法问题,Kempe、Kleinberg和Tardos首次将此算法问题阐述为离散优化问题,Kempe等人实践证明这是一个NP难问题,并给出了一个可证明的近似保证贪心优化算法。然而,贪心算法实施时模拟了蒙特卡罗随机算法,以获得影响力数据集规模的近似解,这会面临较高的时间复杂度。
有些研究旨在改善贪心算法。Leskovec等人提出了CELF(高性价比的趋向懒惰的选择)算法。它汲取了影响力最大化的子模块属性的优点,并且大大降低了近似计算。Goyal等人提出了CELF++算法,它对CELF进行了优化,进一步降低了计算量。 Chen等人提出了两种优化贪心算法的算法:NewGreedy和MixedGreedy算法。前者除去了对影响力扩散没有贡献的边,从而得到了一个较小的图形,而后者综合了CELF与NewGreedy算法。
另一个研究方向是启发式算法。与贪心算法相比,它的处理速度具有巨大优势。基本的启发式算法包括最大等级算法(根据广度选择节点),距离中心性算法(根据到其他节点的平均距离来选择节点)等。在Chen等人设计了程度折扣的启发式算法,这使得当一个节点被选择放入初始集时,降低邻居节点的广度。另一些启发式算法采用网络结构,还有其它方法,在节点选择时引入网络搜索的方法,如PageRank算法和HITS 算法。
影响力最大化与位置的关系[n1] 仍是一个有待研究的领域。
Li等人致力于研究位置感知影响力最大化。在他们的问题中,每个用户都拥有地理位置,目标用户必须设在一个给定的区域。本文提出了近似比为1-1 / E的两种贪心算法,和为满足即时速度要求的两种算法。现有的工作考虑了影响力最大化的位置信息,仅将位置作为一个简单的用户属性,并没有分析用户的移动性的行为。但在现实的O2O环境中,影响力的传播是与用户位置偏好密切相关的。因此,需要分析用户的历史行为,而且基于移动性行为的问题也是需要被解决的。
现有的研究主要关注在线社交网络的一个方面,即将位置作为一个简单的属性。但我们需要考虑影响力最大化问题,这类问题描述了真实的O2O产品推广过程,并充分利用位置信息。本文的重要内容包括:如何在O2O环境下建立实际问题的模型,并对提出的问题设计解决方案。
3、数据集
我们研究的新颖性和显著的特点是对事实的客观描述,因此我们开展的研究是建立在真实的数据基础上的。
LBSN是在O2O环境下扩散影响力的重要平台。它包含用户的社交网络关系和地理位置信息,这为我们的研究提供了条件。我们研究的是Foursquare[n2] 的数据集,它是目前数据量最大、最流行的LBSN。
由于我们的问题是将线上信息与线下信息进行关联,我们需要在同一时间同时检索用户的网络状态和用户签到。但由于API限制,用户的历史签到数据不能直接抓取。为了解决这个问题,我们利用Foursquare与Twitter上的互动。由于Foursquare的用户可以绑定自己的Twitter账户,并可在Twitter上分享他们的签到作为微博,因此我们可以检索用户的历史微博,并进一步操纵微博来获得历史签到。通过这种方式[n3] ,我们可以得到完整的数据集,包括在线社交网络信息和离线的历史签到数据。
   我们最终采用住在纽约,并且签到数据也在纽约的用户的数据集,因为只有签到发生在用户的居住城市才可用于参考,以确定他或她的日常位置偏好。同时,对提供生活服务的产品的卖方来讲,居住在同一个城市的人们是可能带来长期稳定互利的主要目标,而其他一些局外人也会受到时间和空间的制约而限制了对产品的消费行为。我们提取基于用户的属性与签到的纽约数据集。在其他方面,我们只专注于消费者的签到,因为我们想挖掘用户消费行为的地理偏好。因此这些数据会进一步过滤,通过Foursquare提供的分类信息来获取纽约用户消费签到的数据集,这类数据集里包含各种消费行为类型。表1列举了最终数据集的基本参数。
Table 1: 数据集参数
User number

10901
Edge number[n4] 
170048
Average degree[n5] 
15.599
Network diameter(网络直径,即范围)
9
Average path length(平均路径长度)
3.761
Check-in number
764328
Average check-in number
70.115
4、两个阶段模型与基于位置的影响力最大化

4.1两个阶段模型

    在O2O环境下的影响力扩散过程包括线上行为和线下行为之间的过渡。当用户收到网上其他人的影响时,他们会在线下体验之前先确定是否接受该产品。然而,传统的扩散模型如线性阈值模型(LT)和独立级联模型(IC),只包含线上扩散过程而忽略了线下部分。因此,新的影响力扩散模型需要描述产品验收的线上和线下两部分。

不管用户有没有受到过到线上信息干扰(即用户的位置属性或产品推广不相一致),用户还是会线下体验某一产品,因为用户的消费行为是受他或她的消费位置偏好影响的,这刚好反映了用户日常活动区域。产品距离用户的日常活动区域越远,用户对产品线下尝试的概率就越小。因此,对于给定的产品位置L,每个用户都有一个在该位置消费的概率(即线下接受该产品的概率)。为引入新的扩散模型,我们首先给出如下定义:

定义1、在线影响概率 。它表示用户i通过有向边<i,j>成功影响用户j的概率,与传统的影响力扩散模型概率相对应。这是边<i,j>的一个属性。

定义2、离线影响概率 。它表示用户i在位置L处消费的概率,即用户线下验收产品的概率。这是节点i的属性。

因此,我们的扩散模型有两个阶段:在线阶段和离线阶段,它反映了在O2O环境下用户验收产品的过程。该模型将用户定义为四种状态:

定义3、非活动状态。在此状态下,用户还未受到相邻节点线上影响。

定义4、线上活动状态。在该状态下,用户已经受到相邻节点的线上影响,且线上接受了该产品,但并未经历离线体验过程。

定义5、线下活动状态。当用户状态转变到在线活动状态后,用户进入离线阶段。线下活动状态意味着用户线下验收了产品。

定义6、封闭状态。步入离线阶段后,用户未验收产品即转变成封闭状态。此后用户将不会再受到该产品的影响,并且也不会转变成任何活动状态。

用户状态转变过程如图1所示。

图-1 用户活动状态转换
我们在IC模型的基础上提出了两个阶段模型(TP模型),将位置参数融入到产品推广的过程中。给定一个产品推广的位置L和初始节点集A0,它表示所有已经处于线下活动状态的用户。在TP模型中,影响力扩散的过程展现在以下几个间断的步骤中:

步骤t:如果节点u首先处在一个线下活动状态,他将会有一次机会激活每个当前未激活的邻居w,使w转变成在线活动状态。激活成功的概率即是,如果用户u成功激活了用户w,则在第t+1步里,用户w会变成线上活动状态,然后步入离线阶段。在离线阶段中,w有的可能性转变成线下活动状态;否则会切换到封闭状态。不管用户u尝试对相邻节点w激活成功与否,u在下一回合里都不能对其进行激活。当w有多个相邻节点在步骤t中切换到线上活动状态,那么这些相邻节点会尝试以任意顺序激活w,但所有的尝试必须发生在t步骤里。当没有更多的节点可以进入线下活动状态时,扩散过程才会终止。

在TP模型中,我们将存在的两个阶段和四种状态进行关联。未激活状态和线上活动状态属于在线阶段,而线下活动状态和封闭状态属于离线阶段。在线阶段与离线阶段的转变是从线上活动状态开始的,这意味着用户启动线下体验,并且反过来,线下活动状态带来的离线行为也会反作用于线上扩散,这意味着用户可以线上反馈信息,并继续激活其他用户。

在TP模型中,离线影响概率与产品位置L和用户w消费位置偏好相关。在第5节中我们将详细讨论该问题。另一方面,在线影响概率会依据传统的在线模型来设置计算。如:对所有的边设置一个平衡值,或根据一定规律计算每一条边的概率。在线和离线的概率分离为TP模型带来了相对较高的通用性和灵活性。

4.2基于位置的影响力最大化

O2O环境下基于位置的影响力最大化问题与传统环境下的该问题存在多个方面的不同。首先,传统模型不适合O2O环境,而TP模型的作用是在O2O环境中替代传统模式使用。此外,影响力最大化的目标是更具体的。由于不同的用户对同一产品的消费行为有不同的离线影响概率,推广的目标用户应该是那些更有可能进行实际的消费行为的用户。因此,这个新问题的目的是当扩散完成时拥有最多数量的目标用户。

基于位置的影响力最大化问题可以做如下描述:

给定一个有向图G(V,E),其中V是节点集合,表示社交网络中的所有用户, E表示用户之间的关系的边集。 ∀vi∈V(1< |V|),Ci表示签到为消费的数据集,并给出一个位置L ,即经纬度),vi的属性代表离线影响概率,即用户vi在L处消费的概率。

给定一个TP模型,初始节点数量k,产品位置L,基于位置的影响力最大化问题是找到一组初始节点集S∈V,|S| = k,根据TP模型,在扩散完成后,最终受影响的目标节点应该是最多的。这里,目标节点满足 > ,其中是一个给定的阈值。

阈值可根据实际情况来设定。它反映了目标用户的启动子期望,同时也强调了位置特征。目标瞄准那些拥有更高的概率通过消费从而创造更多利益的用户。因为这些用户更有可能成为回头客。即使用户不是目标集,他们也可能有非零的离线影响概率,但显然他们的活动区域太远,因此也不可能带来长期稳定的收益。

5、离线影响概率

离线影响概率是描述用户离线行为的重要参数。它表示用户向一条给定的位置消费的概率,这基本上反映了用户移动性模型。现有研究已经显示,用户从一个位置移动到另一个位置的概率与两个位置之间的距离具有一定的关系。另一方面,历史签到数据是用户移动行为真实和明确的反映。单一签到显示的是用户到过的某个位置,而众多签到数据可以显示用户的日常活动区域。在离线影响概率计算时,使用历史的消费签到记录是很有用的。本节将结合单个活动的移动性模型和历史签到记录,从而给出离线影响概率的计算方法。

5.1用户移动性模型分析

人类的位移行为遵循一定的模式。现有研究已经讨论过位移距离和概率之间的关系。 有些学者研究了动物的行为,并声称
eb54
动物的轨迹可通过列维飞行模式来估计。在引文中,作者调查了手机移动数据,这些数据表明了人类的轨迹,因而分析出人的移动性模型。他们发现,位移距离的分布可以通过指数截断的幂律来近似表示:

    (1) 

其中, 表示的用户的位移距离, 和 是幂律参数,K是临界值。

由分布的启发,我们对Foursquare的纽约用户的签到数据集进行位移分布统计。我们根据用户u的签到时间对签到数据集Cu进行排序,从而得到了签到序列Su=(C1,C2,...,Ci)。单个位移距离di可以通过两个相邻序列的距离被计算,即| Ci - Ci-1 |。我们计算了纽约用户的位移距离,并绘制了位移分布图。如图2所示。

图-2 纽约用户的位移距离
图2中显示的纽约用户的位移分布也可以通过公式1描述的指数截断的幂律函数近似表示。我们把纽约用户的位移数据带入到公式1中,并获得该方程中的参数值。对纽约用户来说,  = 1.69856, = 2.41922和k = 7.05365。

5.2 离线影响概率计算

基于用户的移动模型,我们可以使用历史签到记录来计算出中的用户的离线影响概率。对一个纽约用户,我们假设他的签到数据集为C,给出产品位置L,那么用户受到线上活动影响,用户线下在L处消费的计算公式为:

    (2)

       (3)

其中,disi表示从历史消费签到位置ci与位置L的距离, dis= 1.69856, = 2.41922和k = 7.05365。公式3来自公式1,pi是指对每个历史消费签到ci,用户从签到位置到L处消费的概率。

用户消费行为的签到映射了他或她的日常活动区域。如果用户在位置A有一个签到,这意味着用户到过A,那么A可能就是用户的活动的位置。因此,我们可以假设用户可以从位置A开始到位置L处消费,并进一步假设每个历史消费签到位置都可能是消费行为的起点。

公式3中,将用户历史消费签到通过位置分离, 的物理意义是他或她将不会在位置L处进行任何消费行为。因此这种情况不会发生的概率为 ,这可以通过公式2来计算。其物理意义是,对所有历史消费签到数据进行划分,用户到位置L并进行至少一次的消费行为,这实际上就是在我们的离线影响率问题。

图3(a)显示的是随机选择的用户的消费签到位置的经纬度坐标。图3(b)是它的离线影响率的等高线地图。图3所示的离线影响率分布与历史消费行为是一致的。分布趋向于从几个中心传播,中央部分具有更高的概率对应的地区的签到密度更大,这实际上是用户的日常活动中心。很显然,用户在这一区域有相对更高的概率进行消费行为。另一个方面,有些位置距离中心位置较远,这意味着用户在该位置消费的概率较低。所以总的来说,一般的分布[n6] 是与实际情况一致。这里应该强调的是,虽然在右上方只有少数的消费签到数据,但在这些位置上的签到次数更具关联性,所以在等高线地图上的有一个小中心圆,这也是用户的一块活动区域。这证明了用户消费的位置偏好计算方法的全面性。

基于公式2和公式3,给出的任一产品的位置L,对社交网络中的每个用户i的离线影响概率都可计算出来,并且可以利用到TP模型和基于位置的影响力最大化中。

6、基于位置的影响力最大化算法与评估实验

6.1 两个阶段的启发式算法

在本节中,我们提出用一个启发式算法来解决基于位置的影响力最大化问题。在TP模型中,每个节点都有基于给定产品(即产品位置)的离线影响概率,因此对基于位置的影响力最大化考虑不能只集中在网络的拓扑结构上,也应考虑是每个节点的离线属性。我们首先在TP模型的基础上提出了一种启发式参数H,它将网络拓扑结构与线上线下概率综合考虑,以测量每个节点的影响力。

对于给定的位置L,H的值可以通过公式4计算出来。

      (4)

这里, 表示用户i通过边<i,j>影响用户j的概率,即边<i,j>在线概率,而 表示用户j在位置L处有消费行为的概率,即用户j离线概率。

对H的定义综合了用户的在同一时间的影响传播能力和传播范围。对于一个用户i,它有一个邻居j, 表示用户i把用户j变成线下活动状态的能力。这个值越大,用户i影响用户j的概率就越大。所以这个值可以描述用户的传播能力。我们把所有相邻节点的 相加,这就考虑了网络拓扑,一个用户的好友数越多,影响他人的概率就越大。因此,相加的过程便概述了传播范围。一般情况下,启发式参数H可以作为一个合成指标来衡量用户的影响力。

基于启发式参数H,我们提出了两个阶段的启发式算法(TPH算法)来解决基于位置的影响力最大化问题。 TPH算法计算了每个用户节点i的启发式参数值Hi,并选择了H值最大的K个节点作为初始节点。在算法1中我们做出了总结。

对于给定的产品位置L,社交网络G中的每个节点都有一个相应的离线概率。

算法1中第2行,我们用公式4计算了每一节点的H值。第3行至第6行,我们选取了H值最大的k个节点,并将它们添加到初始节点集中。在计算作每个节点的H值时需要处理它的所有相邻节点,第2的时间复杂度是O(m),其中m表示网络G中边的个数。第3行到第6行的选择过程的时间复杂度为O( ),其中n表示网络G中节点的个数。所以TPH算法总的时间复杂度为O(klogn + M)。

6.2TPH算法的实验评价

为了评价TPH算法的性能,本节我们对比了几种常见的启发式算法。我们的实验运行在PC机上,硬件环境:Intel i52.80GHz处理器、2G内存、64位Windows7操作系统。实验程序是用C ++编写。

正如我们在第四章中提及的,在O2O环境中TP模型能够更准确的描述影响扩散性能。该实验将运行所有的基于TP模型的算法,从而证明TPH算法是基于位置的影响力最大化问题最有效性的解决方法。依据我们在第4节中对基于位置的影响力最大化问题的定义,实验评价标准即是受影响的目标用户的数量。受影响的目标用户获取的越多,算法的影响力扩散性能便越好。

6.2.1实验装置

在实验中我们采用的数据集是在第3节中介绍的Foursquare的真是数据,其中包括纽约的网络用户和历史消费签到位置设在纽约的用户。考虑到问题的兼容性,我们选择了三种常见的、有代表性的启发式算法(最大程度算法(Degree),程度折扣算法(DD)[n7] ,PageRank算法(PR))来对比。Degree选择k个广度最大的节点作为初始节点。
DD算法选择初始节点时对相邻节点使用一定的折扣。这里,我们使用在计算折扣时使用了在线概率。 PR算法是谷歌搜索的核心算法,并可用在网页分级过程中。这里,我们设置R算法的衰减系数为0.85。此外,随机算法作为参考被执行。

在解决基于位置的影响力最大化问题时,应先给出产品位置L和目标用户阈值 。单个用户在不同的位置L将有不同的离线概率,且不同的阈值将决定不同的目标用户群。因此,为了能够综合评价算法的性能,实验会因为不同的L和阈值而产生具体的影响力最大化问题。此外,实验为TP模型按照传统的方式为每一条边设置了相同的在线概率Pon,而Pon值会影响扩散的结果,对不同的在线概率我们也会进行一个详尽的分析。在表2中我们选择了三个主要参数L, ,Pon。

我们根据位置流行程度为位置定义了3种类型[n8] 。人们更愿意在流行的区域进行消费,但在偏僻的区域进行的消费行为就少很多。普通位置是热门和冷门位置之间的非极端的位置。根据这一定义,很显然用户组团在一个热门位置的消费的概率通常相对较高,而在一个不受欢迎的位置消费概率相对比较低的。因此,我们可以利用所有用户的平均离线概率AVG(Poff)作为标准对位置进行分类。我们分析了大量的样品,并设定了以下规则:

为了避免过度拟合,对每个位置类型我们都随机选择10个,最终的实验结果是将10个案例平均值设置到配置中。

目标用户 被设置为0.3或0.5,分别代表目标用户低级和高级的期望。如果 越高,当L是冷门位置时,目标用户将会很少,这不适合的实验分析。加之,在现实生活中的促销员也不会对目标用户设置过于严苛的标准。所以较高的阀值设为0.5。在线概率Pon被设置为0.01、0.05或0.1。如果离线概率普遍较低,则为使结果清楚,我们会选择相对较高的在线概率。

6.2.2实验结果与分析

    当L是一个普通位置时,实验结果如图4所示。横轴表示初始节点的数量,纵轴表示扩散终止后受影响的目标节点的数量。图4显示对普通位置,TPH算法相比其他算法具有显著优势。三种用于对比的算法表现了相似的性能,其中DD算法的性能相对好一些。在线概率和阀值影响了受影响目标用户的最终数量,但它们并没有改变实验数据的总体趋势。当在线概率和阀值不同时,对所有的情况,THP算法都优于其他算法。

当L是一个冷门位置时[n9] ,实验结果示如图5所示。这再一次说明TPH算法的性能更好。同样,在线概率和阈值的变化对实验数据的趋势没有显著影响,并且TPH算法在每种情况下都表现的更好。

当L是一个热门位置时,实验结果如图6所示。随机算法的性能远远落后于其他算法,而其它算法具有相似结果。所以在图6(C)、(d)中,我们没有列出随机算法的曲线。图 6表示,当L为热门位置时,在线概率对在扩散结果有较大的影响。当在线概率是0.01时,TPH算法依然表现了其优越的扩散结果,但DD算法的性能接近于TPH。然而,当在线概率是0.05时,TPH失去了其优势性,与其他算法一样,具有相似的扩散结果和增长趋势。这种现象与在线、离线概率都有关系。因为L是热门位置,大多数用户的离线概率会普遍偏高,当在线概率被进一步设定为相对高的值时,该网络的总体影响扩散能力变强,会有大量的用户可能受到影响。每个算法都尝试选择它们自己定义的具有更高影响指标的节点,但当网络本身的扩散能力已经相当强时,不同的选择方法之间的差异相对来说就很小了。这是因为由一个算法所选择的种子节点可能在另一种算法的扩散过程中被覆盖了,这样就减少了单个算法的相异性。不同于在线概率,阀值对一般扩散的趋势影响不大。

6.2.3实验总结

    在三个实验参数中,目标用户阀值对算法的性能趋势的影响是微不足道的。但产品位置L对实验结果有显著影响,并且当L是一个热门位置时,在线概率也会影响算法性能。

一般情况下,TPH算法优于其他算法。特别是当L不是热门位置时,这种优势更加显著,而在特殊情况下,即L为热门位置且在线概率较高时,TPH算法的性能与其他算法相似。

6.3多等级算法

当产品位置L是热门位置且在线概率是比较高时,TPH算法并没有突出的优势。为了补充这一缺陷,我们提出了多等级算法(MR算法),它可以改善在这种情况下的扩散结果。

MR算法的主要思想是把激能力能考虑进去,它反映了用户是否容易被激活(转变成离线激活状态)。该算法会从不容易被激活的节点中选择更容易影响他人的节点。

TPH算法对最后一种情况的实验选择的初始节点,让我们注意到由于网络的影响扩散能力强,这些被选择的初始节点很有可能更容易被激活,这意味着即使不选择他们作为初始节点,他们最终也会受到网络的影响。然而,一旦影响传播到不容易被激活的节点时,扩散过程可能会终止,并且造成影响力不能覆盖由这些节点连接的其他区域,使得扩散性能被卡住。因此,我们用一个全新的方式考虑该问题,我们选择不容易被激活的节点作为初始节点,这些节点可以激活以前难以覆盖的地区。此外,随着网络扩善能力的增强,许多容易被激活的节点(包括在扩散过程中被激活的节点),会被TPH算法选中却没有被MR算法选中。

这种选择不容易被激活的节点的思想也同样适用TPH算法的思想。在TPH算法中,启发式参数H通过初始节点自身较高的关联度来保证影响扩散能力。

为了衡量激活能力,我们首先定义了R作为排名依据。它用来区分是节点转换成离线状态的容易程度。对于给定的一个用户i和产品的位置L,Ri的计算公式为:

    (5)

       (6)

             (7)

的值越大,用户i越容易被激活。当我们说一个用户R值很高时,首先表明他或她很容易转变成线下活动状态,并且他的邻居节点也容易被激活。如果邻居都没被激活时即 ,用户就永远都不会被激活。所以对 的定义有两个部分,其中 表示用户i的相邻节点的激活能力, 表示用户i自身的激活能力。公式6中 中的 表示用户j的离线概率, 的物理意义是计算用户i的所有相邻节点都没转变成离线状态的概率。所以 的物理意义是至少有一个相邻节点是从线上活动状态转变为线下活动状态的概率。 的值越高,相邻节点被激活的数量就越多。对于 ,它表示用户i的离线概率。
值越高,用户i被激活的概率就越高。

MR算法首先计算了所有节点的R值,并根据R值对各节点按降序排序。我们把有序节点的前半部分定义为高级节点,而后半部分定义为低级节点。高级节点具有较高的激活能力,低级节点相反。最后,MR算法利用TPH算法从低级节点集中选择了k个影响力最大的节点作为初始节点,。其过程如算法2所示。

与TPH算法一样,对于一个给定的产品位置L,社交网络G中的每个节点都对应一个离线概率。在算法2中,第2行根据公式5计算了每个节点的R值。第3行至第6行对节点排序,并创建低级节点集。第7行至第11行,利用TPH算法从低级节点集中选择初始节点。计算R和H的时间复杂度是O(m)。对节点排序的时间复杂度为O(nlogn),其中m和n分别表示边的数量和节点的数量。选择ķ个初始节点的时间复杂度为O(klogn)。因此MR算法的总时间复杂度为O(nlogn + m)。

6.4 MR算法的实验评价

为了证明MR算法的有效性,我们与之前的算法进行了对比实验。由于MR算法是对TPH算法的补充,因为当产品位置L为热门位置且在线概率很高时,TPH算法没有展现较好的优势。我们根据在第6.2.2节中的情况对实验进行设置,即L是热门位置,在线概率为0.05。再次随机选择10个热门位置,以计算出其平均值。其结果如图7所示,MR算法具有显著的优势,同时也证明了其稳定性。其它的算法都表现了相似的扩散结果,但MR算法在扩散范围上却带来了很大的改善。因此这证明了当L为热门位置,线上概率很高时,MR算法能有效补充TPH算法的缺陷。

7.结论

本文旨在产品推广的O2O模式下,在LBSN的平台上,对基于位置的影响力最大化进行了研究。我们首先提出了两个阶段模型,它是一种新的扩散模型,可以在O2O环境下使用。然后,我们定义了基于位置的影响最大化问题,并通过分析用户的移动模型计算了离线概率。接着,我们提出了基于位置的影响力最大化的算法:TPH算法,MR算法作补充。最后,实验证明TPH和MR算法都具有显著的有效性。在今后的工作中,我们将进一步考虑消费地点的语义信息,并分析不同语义类别下用户的位置偏好。此外,我们会把用户消费行为的时间属性考虑进去,从而研究时间约束条件下的影响扩散,这就会提出很多解决方案。

 [n1]14年没有这一段。提出影响力最大化的空白领域

 [n2]14版对Foursquare做了简单的介绍,包括用户量、签到量

 [n3]14版解释了获取历史签到的方法

指的是有向边

平均度:边数除以节点个数,用来表现复杂网络的能力,例如:传播能力,平均度越大,则传播扩散范围越广

 [n6]离线影响概率

 [n7]改进了初始节点集的选择,时节点的度减小

 [n8]14年根据消费签到的数量的稀疏程度对位置进行划分,不能很好地概括位置特征,并且数据有很多噪声,对实验结果的影响比较大。且这种划分不能与概率成严格的比例关系。

 [n9]14版冷门位置的对比中,图b和d都没与较好的展示出算法的优势,因此没有较强的说服性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  社交网络 o2o 算法