您的位置：首页 > 其它

《Statistical Methods for Recommender Systems》阅读笔记---第一章

2018-01-20 22:19 357 查看

关于推荐系统的书籍目前市面上常见的有这三本：《推荐系统实践》、《推荐系统》（《Recommender Systems:An Introduction》）和《推荐系统:技术、评估及高效算法》（Recommender Systems Handbook）。《Statistical Methods for Recommender Systems》这本书是自己无意间发现的。关于推荐系统的资料虽然众多（有想要我推荐资料的可以回复我索要），但系统的书籍并不多，所以立马拿起就看了，希望能有一些收获。

这是第一篇，每章争取至少一篇笔记。感兴趣的可以持续关注我的博客更新。

1、简介

在创建一个推荐系统前，需要重点思考以下问题：

● 有哪些可用的输入数据？包括：物品的来源和内容；用户的兴趣模型（基于历史访问记录的长期兴趣和反映当前会话的短期兴趣）；用户填写的信息，比如人口统计属性；类似CTR的”流行度”指标以及物品分享、喜好的次数等。

● 优化的目标是什么？网站选择优化的目标有很多，包括：短期目标，比如点击、收入或者用户的积极评分；长期目标，比如停留时长，用户留存和返回率，社交行为增长或者订阅增长。

通常，一个推荐系统需要处理以下四种任务的算法技术：

● 内容过滤和理解。需要过滤低质量的内容。至于低质量的定义跟实际的应用相关。定义和标识低质量内容是非常复杂的。通常需要通过混合的方法来处理，比如编辑标识，众包和类似分类的机器学习算法。除此之外，就是内容的理解。怎么表示。通常包括的方法有：bag-of-words, 短语提取, 词干提取和主题提取等。

● 用户兴趣偏好建模。用户的偏好反映的是用户喜欢的物品。偏好可能是基于人口统计属性、用户注册时提交的用户身份信息、社交网络信息或者用户的行为信息。

● 打分。在给定的上下文情况下（用户正在浏览的页面、适用的设备和当前的位置等），基于用户和物品的偏向信息，需要定义一个评分函数来估计用户对物品的一个评估值（比如，CTR,针对用户当前目标的语义相关或者期望回报）。

● 排序。最后，我们需要一种机制去选择一个排序好的推荐列表的来最大化期望值，这个期望值是通过选择的一个目标函数来衡量的。最简单的场景就是基于单个分值排序，比如每个物品的CTR。但是，在实际工程中，排序是一项更加复杂的工作，需要综合考虑到诸如语义相关性，不同评估量化分值或者多样性和商业规则等来确保好的用户体验和维护品牌形象。

下图是原书中对一个基本推荐系统的描述的图：

2、指标优化

创建一个推荐系统，首要要考虑的问题是，我们需要优化哪些指标？是优化给定时间内的一个单一指标，比如总点击，总收入或者总销售？还是同时优化多个指标，比如，我们有时候需要综合考虑推荐的准确性、新颖性和多样性指标。在这些指标保持适当的均衡，以优化用户的长期体验。

3.推荐系统的评估

可以分两个阶段评估一个推荐系统的好坏:线下和线上。或者也可以叫做部署前评估和部署后评估。（部署前评估，大家可以参考我的另一篇博客：http://blog.csdn.net/allenalex/article/details/51318270）；线上的评估一般通过A/B test的。线上评估有风险（毕竟你有评估的模型可能效果不好，而影响到了测试的那部分用户），所以通常的做法是：线下先过滤掉那些线下评估效果就差的模型。只有满足一定的效果才执行线上测试。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： recommendation system

相关文章推荐

新的分享

章节导航