您的位置:首页 > 业界新闻

互联网用户行为的建模与预测

2013-08-28 15:21 309 查看
摘要:近年来,互联网已经渗透到社会生活的方方面面,其数字化的特点也使得记录人们在网络空间中的行为变得切实可行。理解人们在互联网上的行为方式、规律及其影响因素有助于更好地挖掘用户兴趣以提供更准确的推荐,改进互联网环境与服务,以及准确分析评估大规模用户群体的行为。本文面向互联网用户行为,综述近年来行为建模与预测方面的主要进展,并展望这一领域的未来研究课题。

关键词:互联网用户行为,行为建模与预测

 

互联网的深入发展和普及深刻改变了人们社会生活的方方面面。互联网上各种服务,如搜索引擎、电子商务、社交网站等在给互联网用户提供更为便捷的服务的同时,也能够方便地记录用户行为数据。这些用户产生的数据可以用来改进系统的性能,为用户提供更好的服务,因此各种面向用户行为的研究应运而生。例如:在信息检索领域,研究者们通过分析用户点击搜索结果的链接信息,通过学习来改进搜索结果排名[1];在电子商务领域,用户在网上购买商品的历史则被用来分析用户的兴趣,进而改进提供给用户的推荐结果[2]。
无论是利用用户行为信息作为反馈还是研究其所揭示的用户特性,这些面向用户的研究都只是简单地挖掘和利用行为信息,而并没有深入探究关于互联网用户行为更为关键的问题:用户行为受到哪些因素的影响、如何建立用户行为的模型以及如何针对个体和群体用户,预测其可能的行为。对互联网用户的行为进行建模可以更好地分析用户行为的产生机制,并可以利用生成的模型对用户行为进行预测。对于单个用户而言,行为建模能够描述用户的兴趣和行为模式,并预测下一个时刻用户的行为;而用户群体的行为模型则可以用于预测大量用户行为产生的综合效果。目前关于互联网用户行为建模与预测方面的研究还比较零散,尤其缺乏对这一领域较全面的总结。本文将简述近年来互联网用户行为建模与预测的研究现状,并展望其未来研究与发展。

关于互联网用户行为

互联网用户行为是指用户与互联网环境及服务交互产生的一系列活动。用户行为的类型主要取决于其所依赖的互联网服务形式。以微博为例,用户可以通过简短的文字“推送”微博信息;将微博信息“转发”给其他用户;用户还可以“评论”某条微博;“关注”某个人,实时查看其发表的微博。在其它社交网站中,如“人人网”,用户可以分享链接、图片以及视频,并加上自己的评论。与搜索相关的行为包括搜索某个关键字和点击搜索结果链接等。电子商务网站的用户可以产生点击浏览和购买商品等行为。大量用户个体行为的累积作用形成群体行为的结果,如在Digg等内容分享网站中,用户可以分享新闻链接,并可以对他人的分享“投票”,得票较多的链接分享则会出现在首页上,被更多人浏览。其中,每个分享最终的得票数体现了用户群体行为的结果。

互联网用户行为建模研究

关于互联网用户行为的研究从多侧面展开,如以往研究中关注的比较多的对用户转发行为的研究[3, 4, 5, 6];又如在信息检索领域,搜索引擎中用户行为的分析[7, 8, 9]。通过对用户的行为建立模型,可以有效分析用户行为的可能影响因素,发现用户的行为模式,并用于用户行为预测,因而行为建模、分析和预测成为面向互联网用户行为研究中至关重要的课题。本文侧重互联网用户行为的建模和预测方面的工作,以下分别论述用户个体和群体行为的建模与预测方面的主要研究进展。

2.1  用户个体行为的建模与预测

目前关于用户行为建模研究主要基于数据驱动的建模方法,包括基于概率序列、条件随机场和主题模型等方法。

2.1.1  基于个人历史行为的概率序列模型

用户的历史行为可能会对用户下一时刻采取的行为产生影响,根据这个考虑,Manavoglu和Pavlov[10, 11]提出采用概率序列模型来对用户行为进行建模,其中的概率序列模型的输入为按照时间顺序排列的用户行为序列,输出为下个时刻将采取的行为的概率。同时,为解决用户行为数据不足以及避免过拟合等问题,该工作采用了全局混合模型来建模,混合模型的每一部分对应一个概率序列模型,而全局的含义指对于所有用户,每一部分所对应的系数相同。概率序列模型可以选择马尔可夫模型或最大熵模型。采用马尔可夫模型需要定义行为之间的转移概率。而采用最大熵模型则需要定义一系列特征函数,用于描述历史行为和下一时刻行为的关系。

2.1.2  基于网络结构的条件随机场模型

上面介绍的模型中,马尔可夫模型和最大熵模型都将用户的历史行为看作是一个行为序列,在建模和预测时只考虑行为序列中的信息。为更好地结合互联网用户的行为特征,除了用户自身的历史行为外,还需要考虑到用户所在的网络结构。基于此,Peng等[6]采用条件随机场对微博用户的转发行为进行建模。该工作考虑了三类特征:微博内容、社交网络的影响以及时间影响因素。条件随机场模型可以通过定义特征函数包含影响用户行为的因素,因此它与最大熵模型主要区别的是,条件随机场模型中可以涵盖更为丰富的特征类型,更精确地描述用户行为的影响因素。

2.1.3  基于主题模型的行为预测

主题模型[12, 13, 14, 15](topic model)是一种生成式模型,它假设每个文档包含多个主题,而主题则是通过在单词上的概率分布体现出来的。主题模型描述了文档(或者抽象意义上的“文档”)的形成过程,其实现主要采用LDA(latent Dirichlet allocation)[12]。LDA模型克服了pLSI[13, 16]在泛化能力上的不足,并减少了需要估计的参数个数。LDA不仅自身是一个强大、定义良好的主题模型,而且提供了一般性生成式模型的统一框架。LDA扩展模型—DTM(dynamic
topic models)[17]还考虑了主题模型的时间维度,将超参数在不同时间的变化也包含在模型中。
作为生成式主题模型,LDA和DTM都可以描述文档的生成过程,通过模型扩展和概念映射,LDA和DTM还可以用来描述和用户行为相关的生成过程。Xu等[18]通过扩展LDA模型来描述微博的生成过程,建立用户转发微博的模型;Iwata等[19]将用户购买的商品看作是DTM模型中构成文档的单词,建立模型来模拟用户购买商品的过程。在此基础上,经过模型学习后可以得到一系列模型参数,可以利用这些参数所体现出来的用户兴趣,基于兴趣相似度来预测用户的行为[18,
19]。

2.2  用户群体行为的建模与预测

根据用户的行为历史、网络结构或者兴趣相似度来建立行为模型,可以有效模拟和预测用户个体的行为。为了分析评估用户群体行为的结果,需建立关于用户群体的行为模型并进行群体行为预测。目前已有一些关于用户群体行为的研究,主要采用了随机模型(stochastic models)和时间序列模型等方法。

2.2.1  基于随机模型的用户群体行为建模

针对群体用户的行为特点,Lerman和Hogg[20, 21, 22]提出随机模型。在随机模型中,每个用户都被看作是一个随机过程,并拥有特定数目的状态数。随机模型并不关心在某个时刻,某个用户的具体行为,而是关心大量用户作用下的平均行为。Lerman和Hogg利用随机模型研究Digg网站上连接分享的得票总数—这显然是多数用户集体行为的结果。在他们的工作中,采用随机模型对front pages,new pages和其他用户的分享分别进行建模,并基于这三方面描述Digg上某个分享的得票数。

2.2.2  基于时间序列模型的用户群体行为建模

时间序列模型自然包含了分析对象的时间维度,便于分析所描述序列的发展趋势及其周期性,并利用模型进行预测。时间序列模型的这些特点,可以用于研究用户行为的时序特性。Radinsky等[23]利用状态空间模型[24]来研究用户群体在搜索引擎中搜索某个关键字和点击链接的次数随时间变化的规律。在他们的工作中,分别对平滑、局部趋势、周期性等多个场景进行动态建模,并结合自动学习,取得了很好的效果。

2.2.3  基于智能体的用户群体行为建模与预测

基于智能体的模型(ABMs)通过描述群体中的每个个体,以及个体之间、个体与环境之间的交互,模拟群体行为的变化过程[25]。由于智能体建模具有自底向上、基于个体行为描述涌现群体行为等特点,因而适用于模拟、分析互联网用户群体行为形成的内在机制和演化过程。Tan等[26]以网民群体为核心,对网络事件中涉及的各方建立了智能体模型,并面向食品安全领域分析了网民群体的观点及其演化。

未来研究展望

随着互联网的不断深入发展,面向用户的研究已成为大数据时代的一个关键研究课题。本文面向互联网用户行为,综述了近年来行为建模与预测方面的主要进展。目前对于用户行为建模方面的工作主要基于数据驱动的建模方法,在基于知识、基于行为之间和用户之间的关系、以及基于时间特性的建模方面的研究开展得还较少。针对这些方面的未来重要研究课题包括:
1)群体行为建模有助于综合考察、分析群体性事件的形成、发展以及预测其产生的结果,如何利用行为知识、特别是行为及其相关联的状态的因果知识辅助群体行为建模,为面向互联网的社会管理与控制提供技术支持;
2)用户与用户之间、行为与行为之间都存在着多种关联关系,如何结合这些关联关系建立用户行为模型和进行预测是另一个重要的研究课题;
3)互联网用户行为具有较强的时间特性,受互联网服务在线性、实时性特点的影响,用户行为的时序特征也很突出。如何考虑用户行为的时间特性,进行增量式行为建模和预测,将是一个研究挑战。
 

参考文献

[1] Joachims, T. Optimizing Search Engines Using Clickthrough Data[C].
Proc. of the eighth ACM International Conference on Knowledge Discovery and Data Mining(KDD). Edmonton, ACM, 2002. 133-142.
[2] Adomavicius, G. and Tuzhilin, A. Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions[J].
IEEE Transactions on Knowledge and Data Engineering, IEEE, 2005, 17(6):734-749.
[3] Yang, Z., Guo, J., Cai, K. et al. Understanding Retweeting Behaviors in Social Networks[C].
Proc. of the 19th ACM International Conference on Information and Knowledge Management (CIKM). Toronto, ACM, 2010, 1633-1636.
[4] Golder, S. Tweet, Tweet, Retweet: Conversational Aspects of Retweeting on Twitter[C].
Proc. of 43rd Hawaii International Conference on Systems Science (HICSS), IEEE Computer Society, 2010, 1-10.
[5] Suh B., Hong L., Pirolli P., and Chi. E. H. Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].
Proc. of IEEE International Conference on Social Computing (SocialCom), IEEE, 2010, 177-184.
[6] Peng, H., Zhu, J., Piao, D. et al. Retweet Modeling Using Conditional Random Fields[C].
Proc. of 2011 IEEE 11th International Conference on Data Mining (ICDM) Workshops. Vancouver, IEEE, 2011, 336-343.
[7] Agichtein, E., Brill, E. and Dumais, S. Improving Web Search Ranking by Incorporating User Behavior Information[C].
Proc. of the 29th annual international ACM SIGIR conference on research and development in information retrieval(SIGIR). Seattle, Washington, USA, ACM, 2006, 19-26.
[8] 刘奕群,岑荣伟,张敏等. 基于用户行为分析的搜索引擎自动性能评价[J].软件学报,2008, 19(11):3023-3032.
[9] 马少平,刘奕群,刘健等. 中文搜索引擎用户行为的演化分析[J].中文信息学报,2010, 25(6):90-97.
[10] Manavoglu, E., Pavlov, D. and Giles, C.L. Probabilistic User Behavior Models[C].
Proc. of the 3rd IEEE International Conference on Data Mining (ICDM). Melbourne, IEEE, 2003, 203-210.
[11] Pavlov, D. Sequence Modeling with Mixtures of Conditional Maximum Entropy Distributions[C].
Proc. of the 3rd IEEE International Conference on Data Mining (ICDM). Melbourne, IEEE, 2003, 251-258.
[12] Blei, D.M., Ng, A.Y. and Jordan, M.I. Latent Dirichlet Allocation[J].
Journal of Machine Learning Research, 2003, 3:993-1022.
[13] Hofmann, T. Probabilistic Latent Semantic Analysis[C].
In Proceedings of the 5th Conference on Uncertainty in Artificial Intelligence (UAI). Stockholm, Morgan Kaufmann, 1999, 289-296.
[14] Griffiths, T. L. and Steyvers, M. Finding scientific topics[J].
Proceedings of the National Academy of Science, 2004, 101:5228-5235.
[15] Steyvers, M. and Griffiths T. L. Probabilistic topic models. In
Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum.
[16] Hofmann T. Probabilistic Latent Semantic Indexing[C].
Proc. of the 22nd annual international ACM SIGIR conference on research and development in information retrieval(SIGIR). Berkeley, ACM, 1999, 50-57.
[17] Blei, D.M. and Lafferty, J.D. Dynamic Topic Models[C].
Proc. of the 23rd International Conference on Machine Learning(ICML). Pittsburgh, ACM, 2006, 113-120.
[18] Xu, Z., Zhang, Y., Wu, Y. et al. Modeling User Posting Behavior on Social Media[C].
Proc. of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). Portland, ACM, 2012, 545-554.
[19] Iwata, T., Watanabe, S. and Yamada, T. Topic tracking model for analyzing consumer purchase behavior[C].
Proc. of 21st International Joint Conference on Artificial Intelligence(IJCAI). Pasadena, 2009, 1427-1432.
[20] Lerman, K. and Hogg, T. Stochastic Models of Large-Scale Human Behavior on the Web[C].
AAAI Spring Symposium: Human Behavior Modeling'09. 2009, 37-42.
[21] Hogg T. and Lerman L. Stochastic Models of User-Contributory Web Sites[C].
Proc. of the 3rd International Conference on Weblogs and Social Media (ICWSM). San Jose, AAAI, 2009.
[22] Lerman, K. and Hogg, T. Using Stochastic Models to Describe and Predict Social Dynamics of Web Users[J].
The Computing Research Repository, 2010, abs/1010.0237.
[23] Radinsky, K., Svore, K., Dumais, S. et al. Modeling and Predicting Behavioral Dynamics on the Web[C].
Proc. of the 21st international conference on World Wide Web (WWW). ACM, 2012, 599-608.
[24] Durbin, J. and Koopman, S. Time Series Analysis by State Space Methods[M]. Oxford University Press, 2008.
[25] Goldstone, R. and Janssen, M. Computational Models of Collective Behavior[J].
Trends in Cognitive Sciences, 2005, 9(9): 424-430.
[26] Tan, Z., Li X. and Mao W.
Agent-Based Modeling of Netizen Groups in Chinese Internet Events. SCS M&S Magazine, 2012, 3(2): 39-46.
 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: