您的位置：首页 > 运维架构

Top-N Recommendation——基于电影（Item）的推荐

2016-03-04 12:33 295 查看

注:

1. 数据集来源MovieLens

2. 源代码在末尾附上

一、Introduction

无论是在实体商店还是在网络上，都会有Top-N推荐的情况。基于客户或者基于商品做出推荐。本实验基于Movielens的电影数据集，对电影做出Top-N 推荐。主要目的是基于Item-Based的思想来进行Top-10的相关电影推荐。

二、Methodology

本实验基于Item-Based 的思路，计算电影的相似度，对每部电影都生成一个它与其他电影的相似度的序列（按顺序排列），然后从中得到Top-10的电影来作为该部电影的相关推荐电影集。在MovieLens中的数据格式如下：

1::Toy Story (1995)::Animation|Children's|Comedy

1：表示电影ID； Toy Story(1995)表示电影名；Animation|Children’s|Comedy ：表示标签

因此可以用一个向量表来表示该电影的信息：

附注： 0 表示电影没有该标签， 1 表示电影有该标签

对每一部电影，计算它与其他电影的相似度，生成一个相似度的有序序列。N部电影生成N个有序序列，因此对每一部电影都有一个单独的推荐列表。

三、Trading Algorithm

Item-Based：

首先生成一个电影的信息矩阵(N*M)，然后对于每一个部电影，使用相似度计算的公式，将该电影与其余N-1部电影做相似计算，然后再对相似度进行排序，推荐前Top-10的电影。

相似度：

公式：

本实验采用的是Cosine相似度：

原理：多维空间两点与所设定的点形成夹角的余弦值。

范围：【-1，1】，值越大，说明夹角越小，两点相距越近，相似度就越高。

说明：Cosine相似度被广泛应用于计算文档的数据的相似度，本实验是基于标签的电影推荐，因此采用了该公式来计算两个电影之间标签集的相似度，以此来代表两部电影的相似度。

TF-IDF算法（计算某个标签对于该电影的权重）

由于MovieLens里面的Movie数据只给出了电影的标签（如下），但是并没有给出该标签用户的点击量，因此无法对该标签在本电影中的权重进行计算。因此，本实验没有用TF-IDF计算词频，确定标签权重的步骤。

四、Result

为了验证结果，将电影的信息和相似度打印出来。

在这里我们随机选取了三部电影，将其电影的Top-10推荐以及它的相似度打印出来，以便分析比较。

Movie1:

Movie2:

Movie3:

五、Conclusion

结果证明，对于每一部电影，都输出了一个推荐序列，而且按照相似度排列的Top-N推荐。列如，电影1：它的标签是 Action|Adventrue|Romance ，在它的Top-10推荐列表中，按照相似度从大到小推荐。

本实验存在一个问题：

有些电影其推荐列表的电影相似度全部都是1,，如电影2 GoldenEye ,其标签为：Action|Adventure|Thiriller ，推荐列表中的电影标签与其完全相同，这是不太符合实际的。

原因

主要问题在于MovieLens数据集中并没有对每一个标签的点击量进行说明，无法通过TF-IDF算法计算标签在电影中的权重，但是实际情况下，每一部电影的标签都会有一个点击量，作为该标签与该电影相关程度的反映。因此对于一部电影，它的某一个标签的权重无法衡量，因此不能区分出某一个标签在一部电影当中的权重，在计算的时候每一个标签的权重都相同，导致了拥有相同标签的电影其相似100%。

解决方案

每一部电影的标签都会有一个点击量，通过IF-IDF算法计算其权重，作为该标签与该电影相关程度的反映。用以区分出某一个标签在一部电影当中的权重，在计算的时候每一个标签的权重各有不同，那么便不会出现上述的问题。

总体来说，本实验基于item-based思想，通过相似度计算，生成电影的top-N 推荐序列。虽然数据上存在一些问题，但是总体上还是完成了推荐的目的。

点击此处下载源代码

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航