您的位置:首页 > 其它

信息推荐系统学习笔记之概述

2015-03-17 12:16 309 查看
一、什么是信息推荐系统

1.推荐系统产生的背景

如果我们想看一部电影,可以有很多种方式,去影院购票观看,去互联网上搜索观看,去音像店购买碟片回家看。这些都是建立在我们有了明确目标的前提下,我们可以很快捷地找到所需要的电影。那么如果我们并不知道看什么好,需要有人给个建议呢?这时可能身边喜欢看电影的朋友就会提出一些建议,推荐一些电影给我们。如果将这个朋友变成一个计算机上的系统,它能够根据我们的喜好或者需要将电影推荐给我们,那么这就是信息推荐系统

如今是一个信息技术高速发展的时代,我们周围的信息早已不是那样少得可怜了,现在的我们进入的是一个信息过载的时代。还是电影的例子,很多年前我们想看电影只能去电影院,电影院放映什么我们才能看到什么;但是现在随便在网上一搜就是成千上万部电影展现在我们面前。想要在这么多的信息中甄选出我们需要的,真的是件很不容易的事,因此用户需要这样的推荐系统。而对于信息的提供者来说,要在众多的信息中脱颖而出,尽早地呈现给用户也是一件不容易的事,他们也需要一个推荐系统,来将自己的信息直接发送给有相应需要的人。

为了解决信息过载的问题,人们提出了两种具有代表性的方案——分类目录和搜索引擎。前者将同类的网站或者内容放在一起,方便人们查阅,但是覆盖面较小,仅仅是一些热门的网站,代表网站有雅虎,好123等;后者可以快速地从纷繁的网站中挑出用户所需要的东西,但是它需要用户提供相对准确的关键词来寻找信息。这两种方式其实都需要用户有具体的目标,才能够找到自己需要的信息。而信息推荐系统也是一种帮助用户快速发现有用信息的工具,不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息。

2.长尾理论

说到这里就需要提到一个词——“长尾”。传统的二八理论中,80%的货物只占有20%的市场,如果画一个“货物 - 市场占有量”图表,那么这80%的货物就像是一条长长的尾巴,拖缀在前20%之后。长尾并不一定只局限于货物,还有很多领域都会有这样的长尾。在互联网条件下,很多商品虽然并不热门,但是其数目庞大并且销售渠道很好,他们总的销售额僵尸一个不可小觑的数字。引用Bob
Baker的一句话——“长尾讲述的是这样一个故事:以前被认为是边缘化的、地下的、独立的产品现在共同占据了一块市场份额,足以可与最畅销的热卖品匹敌”。由此可见长尾的价值,要想很好的发掘长尾,就必须研究用户的兴趣,这正是推荐系统主要解决的问题。

3.推荐系统的实现原理及组成

我们上面提到了决定看什么电影的几种方式,可能去向朋友咨询,可能根据喜欢的演员、题材等信息搜索相应的电影,还可能查看一下排行榜,看看那些大家都在看的电影。这就体现出了推荐算法的本质,通过一定的方式将用户和物品联系起来,而不同的推荐系统采用了不同的方式——例如利用好友、用户的历史兴趣记录以及用户的注册信息等。总的来说,几乎所有的推荐系统应用都是由前台的展示页面、后台的日志系统以及推荐算法系统三部分构成的。

二、利用用户行为数据

为了让推荐结果符合用户的心意,我们就需要明白用户想要什么,用户的喜好是什么。了解这些信息的途径就是收集并发掘用户行为的数据。用户的行为不是随机的,而是蕴含着很丰富的模式。

1.用户行为简介

用户行为数据在网站上最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志,并将其存储在文件系统中。这些日志记录了用户的各种行为,如在电子商务网站中这些行为主要包括网页浏览、购买、点击、评分和评论等。

用户的行为在推荐系统中一般分为两种——显性反馈行为和隐性反馈行为。显性反馈行为包括用户明确表示对物品喜好的行为,例如评分。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的是页面浏览行为。相比于显性反馈,隐性反馈虽然不明确,但是数据量更大。

按照反馈的方向,用户行为数据有课分为正反馈和负反馈。正反馈指用户的行为倾向于表示用户喜欢该物品,反之则为负反馈。显性反馈中很容易区分一个行为是正反馈还是负反馈,但在隐性反馈中就不好区分了。

2.用户行为的六个部分

包括产生行为的用户(user id),行为的对象(item id),行为的种类(behavior type,如购买或浏览),产生行为的上下文(context,如时间地点等),行为的内容(behavior content,如评论的文本,打标签的标签名等)和权重(behavior weight,如打分的分数)。很多时候并不是所有的行为都需要用这六个部分来表示,有些部分可以忽略。一般来说,不同的数据集包含不同的行为,例如:无上下文信息的隐性反馈数据集,只包含user
id和item id;无上下文信息的显性反馈数据集,包含user id,item id和behavior weight;有上下文的隐性反馈数据集,包含user id,item id和context(时间戳等);有上下文信息的显性反馈数据集,包含user id,item id,behavior weight和context等。

3.用户行为分析

设计推荐算法之前,研究者需要对用户行为数据进行分析,了解数据中蕴含的一般规律。关于用户活跃度和物品流行度,存在一种称为Power Law的分布,也称长尾分布:f(x)=αx^k。并且用户越活跃,越倾向与冷门的物品。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  信息推荐