您的位置：首页 > 其它

海量数据时代与推荐系统的主要算法

2011-12-12 23:20 246 查看

据数据调查公司IDC预计2011年全球互联网数据总量将达到1.8万亿GB，海量数据时代已经来临。信息规模和覆盖面的迅速增长，信息过载的问题也随之而来。过量的信息同时呈现，用户无法从中获取自己所需的部分，信息使用效率反而降低。搜索引擎是整合资源的有力工具，然而传统的搜索引擎往往是根据用户的数据字符串对信息进行检索，难以满足用户的个性化需求。

推荐系统已经被广泛用于电子商务和社交网站中。目前，电子商务中主要向用户推荐商品，使用户更便捷的找到其所愿购买的商品，产生交易；而社交网站则主要向用户推荐其感兴趣的用户，使他们建立联系，增加整个关系网的节点和度。

推荐算法研究涵盖了认知科学、信息检索、管理科学、心理学、近似性理论等等，大体可以分为以下几类：基于规则的推荐系统、基于内容的推荐系统、协同过滤推荐系统等。

基于规则的推荐系统广泛用于电子商城，以电商为例，算法主体思想是：首先，统计得到挖掘出的规则前件，然后针对目标客户的历史购买行为，向该客户推荐规则后件。挖掘过程是一种离线的规则分析，分析每一个用户的历史历史购买。例如用户甲购买了A、B、C三种商品，用户乙购买了B、C、D，用户丙购买了A、C，则有关联规则A-C，B-C，用户丁历史购买有A，则首先推荐C，其次推荐B。实际的挖掘过程要相对复杂，找出所有满足最小支持度和最小置信度的关联规则，生成规则库，再向用户推荐。

基于内容的推荐系统在资源类网站使用较多，例如视频点播类网站、豆瓣、CSDN资源下载等。其主要方法为：首先，建立资源项目的关键词序列，也就是网站中常提到的标签(tag)；根据资源项目的关键词重合度和用户的历史选择，给出推荐资源项。

协同过滤推荐系统，需要用户对目标项进行评分，处理流程如下：首先，基于系统巾的已有评分数据，计算给定用户(或项目)之间的相似性；然后根据计算得到的相似性，寻找与目标用户(或项目)的最近邻居集合：最后使用最近邻居集合中的用户(或项目)的评分情况来预测目标用户对目标项目的评分值，以此来产生对目标用户的推荐。这个方法比较精妙，在后续的博客中，会详细相关性算法。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航