您的位置:首页 > 其它

Coursera推荐系统课笔记之推荐系统分析框架

2013-09-09 22:51 176 查看
找点空闲,找点时间,百忙之中,写篇博文。

废话少说,先来吐槽两句,Joseph A Konstan 自然是很厉害的,虽然我确实不知道他的光辉历史。吐槽只基于以下几点:

1、视频没截短,too long ,单个视频过长。现在主流是15分钟以内的样子。

2、语速太慢,这个还好可以加速。然后,可能是因为课程本质所致,举了很多例子,太过费时。

3、吐槽完毕,回归正题。


第一周的视频中,第一讲讲历史,没字幕,能大致听懂已经让我兴奋异常了,这个笔记难指望了。第二讲讲课程安排,没什么可留恋的。第三四讲是配置环境,上一博文已经写了。最后一讲,带我们浏览了亚马逊,详细地把亚马逊多个主要(也可能就是全部)的推荐系统给分析了一遍。

各位看官要问了,那他是怎样分析亚马逊的推荐系统的呢(易中天的声音

)?那还得看第五、第六两讲,所谓磨刀不误砍柴工,不对,所谓庖丁解牛,游刃有余,盖因,盖因,也没啥好盖因的,就是因为那一头头的牛在他眼中,并不是一个个美女

,而是“未尝见全牛也”,整头牛的结构已经完全印刻在他的潜意识中。所以,让我们来看看,在Konstan 教授眼中,推荐系统这头牛的“结构”是怎样的。

推荐系统分析框架 Analytical Framework of Recommend System

包含8个要素,domain(推荐领域)、purpose(目的)、context(推荐背景)、whose opinions(推荐者)、personalization level(个性化或定制化层次)、privacy and trustworthiness(隐私性和可信度)、interface(接口即入与出)、algorithms(推荐算法)。且看一一道来。

1、推荐领域 domain —— 什么被推荐

易于理解,推荐的是:

(1)信息、新闻类。主要就是门户网站和微博里的热门新闻,比如这两天最受大家关注莫过于李亚鹏王菲离婚一事了,让多少人又不相信爱情了。(

哪来这么多次不相信爱情)

(2)产品、厂商类。

(3)寻找相似品味的人。和朋友聊天时,被他天马行空的想像所打败

,也许一个更加细心、细致、贴心的相亲推荐系统将出于他手



(4)一个序列,比如音乐列表和书单。书单见得多,各大名人、各大高校、各大畅销书,华尔街都不知道出过几次推荐书单了。

有时推荐的领域会有特殊的性质和需求。

(1)新商品的推荐问题,大家对它都还没有了解,如何推荐,就是所谓“冷启动”问题。

(2)还有些像食品或音乐此类的物品,是允许重复推荐的,也许是一直爱好,也许换换口味(希望不要是重口味)。而书本等物品,你多半只会买一次。

2、目的 purpose —— 为什么推荐

在看视频之前,我只会想到销售这一点。其实有3种:

(1)销售或信息获取。

(2)education of user。咋看之下,education,教育,不可能啊。那到底是什么呢,其实是指像地图公交路线那种的指导或建议。比如,建议你去哪儿、建议以什么样的线路或方式去旅游等等。

(3)围绕被推荐的事物,组建出一个用户的群体,把喜爱这一事物的人们聚在一起。

话说,我在做第一周作业时,选择分析豆瓣的推荐系统,在确定这个目的时,就需要考虑了。看似推荐出来的书或电影或音乐,不应该就是让我去购买、观看的吗?但是,豆瓣本质还是一个web 2.0社交网络。所以,我选了第三条。

3、背景 recommend context

也就是推荐活动发生的一些情况和限制,一是用户当时的活动,是无聊呢,是寂寞呢,还是空虚呢;二是这个背景会对推荐产生什么样的限制。就比如,刚听完一首《吻别》的你,是想继续听李宗盛的《领悟》呢,还是听春哥的《我的心里只有你没有他(她?)》

。又或者你刚花了重金买了一台性能很炫的游戏本,那么就该根据你的游戏历史记录给你推荐游戏了。

4、推荐者 whose opinion

可以肯定的是,推荐者的身份、水平 make a big difference。推荐者是权威的专家教授,徒惹人笑的砖家叫兽呢,是平平常常的大众呢,还是和你爱好、品味相似的人们。

这点,真的很重要。

5、个性化层次 personalized level

见多了各大网站上,五花八门的推荐,你有没有想过其实里面还是有很多层次的。

是通用的非个性化非定制推荐 Non-personalized recommend?就像微博里列出的最热门的新闻、事件。它并不关注你是否对此感兴趣。它和个性化推荐的关系好比门户网站和搜索引擎,引导你找到大众喜欢的事物,你再摸索出自己喜欢的事物。

是基于统计的有目标群体的推荐Demographic?就好像买尿布的外国奶爸们顺手买的酒。难以想像把房地产的传单发给小学生的情形,也很难想像向年轻人推荐太极养生的活动,哪怕,哪怕我自己是很想学太极。

是只针对你当前活动而作出的推荐Ephemeral?就像豆瓣每本书的网页中间都会推荐其他书本一样,标准格式“喜欢这个X的人们也喜欢……”。

是分析你长期记录得到的推荐Consistent?亚马逊在这方面是最著名的了,它会根据你的以往的犯罪记录,NO,消费记录,给你推荐一些物品。

6、隐私和可信度 privacy and trustworthiness

这年头,大家都觉得自己快没隐私了,那推荐系统知不知道我们的隐私呢?它知道我们的个人信息吗?或是需要让每个人有个特定的身份identify吗?另外,我们可以否认它为我们总结的偏好吗?

又有多少可信的呢?会不会有内在的偏见,就像这家店的导购正常情况下不会给你推荐其他店的商品。会不会有恶意的、非真实的操作,比如网络水军(豆瓣上电影还没上映,分数就出来了,高分低分都水军,一堆捧一群黑)。

说到网络水军,那就要考虑推荐者的信誉了。名气大的人总不能信口雌黄、信口开河了吧?也不一定,这年头转发只是一个鼠标轻轻一点的动作。而畅销书不挂上好几个人的名头,作者都不好意思说他在写书。

7、接口 interface

看完视频后,觉得这确实是个很计算机化的说法。也就分成了输入输出。

输入就是,它有没有明确地问你的观点,让你进行评分或评论,还是默默地记录了你的购买或浏览行为(单相思以及聪明的追求都经常这样吧?)。

输出则分几类:

(1)预测,是得到一个特定的评分结果?

(2)推荐,是得到一个或一堆推荐的事物?

(3)过滤,是过滤一列表的搜索项?

另外,输出结果是自然的互动,还是明确地说“我给你推荐如下东东”。

好吧,时间有点晚了。为了身体健康,我现在坚持早睡。剩下第八项推荐算法,正好原视频也在此分成了两个部分,那我就在此结束了。整篇也就是个笔记或者叫翻译的东东,自己的观点、体会很少。望各位大大多多拍砖——帮我把砸过来的砖拍飞。在下会知耻而后勇,啊,不对,会再接再厉,争取多写笔记。哪怕因为懒了,连下一篇都不写了。这种情况也是有可能的。


再说说这个视频之后的作业,就是找个网站,从中找出两个不同的推荐系统,当然需要有算法等多个方面不同,然后根据上述的分析框架,根据这八个要素,写一篇分析报告。

也会觉得,开发推荐系统为什么要分析这样啰嗦的东西。道理其实就在最开始说的庖丁解牛这故事里。我自己也挺懒的,哪怕已经把作业写完了,花费了大把的时间,也当作是练练英语写作能力了。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: