您的位置:首页 > 其它

实战智能推荐系统(6)-- 用户行为分析

2018-03-28 11:13 591 查看

用户行为数据

为了让推荐结果个性化,就需要深入了解用户。生活中通过“听其言,观其行”来了解一个人。而对于算法,则是分析用户行为日志。
用户行为在个性化推荐系统中一般分成两种-- 显性反馈行为和隐性反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为,比如对商品评分,喜欢或不喜欢。隐性反馈行为指的是那些不能明确反馈客户喜好的行为,比如用户浏览行为。相比于显性反馈,隐性反馈虽然不明确,但数据量更大。在很多网站中,很多用户只有隐性反馈行为,没有显性反馈行为。比如我从来不会对看过的电影,购买过的商品,听过的音乐进行评论。



用户行为有很多种,比如浏览网页,购买商品,评论,评分等。。。要用一个同一的格式表示所有的这些行为是比较困难的。下表给出了一种表示方式,将一个用户行为表示为6 部分,即产生行为的用户和行为的对象(这两个是任何表示形式中不可少的),行为的种类,产生行为的上下文,行为的内容和权重。




长尾分布

1932年,哈佛大学的语言学家Zipf 在研究英文单词词频时发现,如果将单词出现的频率按照由高到低排列,则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比。这个分布被称为 Zipf 定律。
很多人员发现,用户行为数据也蕴含着这种规律。令 fu(k) 为对k 个物品产生过行为的用户数,fi(k) 为被k 个用户产生过行为的物品的数量。我们选择 Delicious 和 CiteULike 数据集一个月的原始数据进行分析,物品流行度的长尾分布和用户活跃度的长尾分布如下:





用户活跃度和物品流行度的关系

一般来说,不活跃的要么是新用户,要么是只来过网站一两次的老用户。一般认为,新用户倾向于浏览热门的物品,而老用户会逐渐开始浏览冷门的物品。图2-5 展示了 MovieLens 数据集中用户活跃度和物品流行度之间的关系,这表明用户越活跃,越倾向于浏览冷门的物品。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息