您的位置:首页 > 运维架构

Mahout SlopOne

2013-11-13 09:47 24 查看

关于推荐引擎

如今的互联网中,无论是电子商务还是社交网络,对数据挖掘的需求都越来越大了,而推荐引擎正是数据挖掘完美体现;通过分析用户历史行为,将他可能喜欢内容推送给他,能产生相当好的用户体验,这就是推荐引擎。

推荐算法Slopeone的原理

首先Slopeone是一种基于项目的协同过滤算法(Item-basedRecommendation),简单介绍这种算法(若理解有误,欢迎大家更正,Iamjusta
beginner):根据用户们对产品的喜好程度,来将产品分类;举个简单例子:比如有10个用户,其中有9个人即喜欢产品A,也喜欢产品B,但只有2个人喜欢产品C;于是可以推断产品A和产品B是属于同类的,而产品C可能跟它们不是一类。

好了话不多讲,让我们看看Slopeone吧!

Slopeone是通过用户们对每个产品的评分,来计算产品间的一个差值;这种计算是通过线性回归f(x)
=ax+b得到的,其中a
=1,正如它的名字Slopeone(斜率为一);另外用户的评分,在Slopeone中是必不可少的。这里举

例看看它的计算方式:下面是一张用户对书籍的评分表

书1

书2

书3

用户A

5

3

2

用户B

3

4

未评分

用户C

未评分

2

5

书1是否适合推荐给用户C,需要通过Slopeone计算出一个值来判定:首先得到书1和书2之间的平均差值X=((5-3)+(3-4))/2=0.5,然后通过用户C对书2的打分得到相应的推荐值2+0.5=2.5(推荐引擎会通过推荐值的高低来选择要推荐的物品),这里只是通过书2来计算用户C对书1的推荐值,实际的Slopeone算法中若要得到用户C对书1的推荐值,会把用户C评分过的所有书按此方法依次对书1(为评分的书)算推荐值,然后取平均值得到,放到表中如下:

(((5-3)+(3-4))/2+2+(5-2)/1+5)/2=5.25

实际应用中你还可以设权值,这里就不深入了。

以上是Slopeone的原理,接下来看看它在Mahout中是如何设计与实现的。

Mahout中Slopeone的设计思路以及代码实现

先简单介绍下,Mahout是Apache的一个开源项目,由Lucene项目组和Hadoop项目组分离出来,它实现了推荐引擎中的大部分经典算法,有兴趣的朋友可以研究研究

首先我们需要基础数据,即用户对产品的评分,这部分数据可以来自数据库也可以来自文件,Mahout中对此设计了一个简单的数据库表,SQL如下:

1
CREATE
TABLE

taste_preferences(
2
user_id
BIGINT

NOT
NULL
,
3
item_id
BIGINT

NOT
NULL
,
4
preference
FLOAT

NOT
NULL
,
5
PRIMARY
KEY

(user_id,item_id),
6
INDEX
(user_id),
7
INDEX
(item_id)
8
)
其次,Mahout在启动时,会对这部分数据进行处理,算出每对产品间的平均评分差值,已Map<ItemId,Map<ItemId,Average>>的数据结构存放在内存中(当然这帮牛人没有用Java中Map的实现,自己写了一个叫FastByIDMap的类)。处理基础数据的计算代码如下:

1.首先获取所有评过分的用户id(7,而dataModel就是用于存放我上面提到的基础)

2.然后依次计算每个用户评分过的产品间的平均评分差值(9,具体在processOneUser中实现)

01
private
void

buildAverageDiffs()
throws

TasteException{
02
log.info(
"Buildingaveragediffs..."
);
03
try
{
04
buildAverageDiffsLock.writeLock().lock();
05
averageDiffs.clear();
06
long
averageCount=0L;
07
LongPrimitiveIteratorit=dataModel.getUserIDs();
08
while
(it.hasNext()){
09
averageCount=processOneUser(averageCount,it.nextLong());
10
}
11
12
pruneInconsequentialDiffs();
13
updateAllRecommendableItems();
14
15
}
finally

{
16
buildAverageDiffsLock.writeLock().unlock();
17
}
18
}
3.首先取出该用户所有评分过的项目和评分值(4)

4.依次计算这些项目间的平均评分差值(6~26),并存储在内存中。

01
private
long

processOneUser(
long
averageCount,
long
userID)
throws

TasteException{
02
log.debug(
"Processingprefsforuser{}"
,userID);
03
//Saveoffprefsforthelifeofthisloopiteration
04
PreferenceArrayuserPreferences=dataModel.getPreferencesFromUser(userID);
05
int
length=userPreferences.length();
06
for
(
int

i=
0
;i<length-
1
;i++){
07
float
pref***alue=userPreferences.getValue(i);
08
long
itemIDA=userPreferences.getItemID(i);
09
FastByIDMap<RunningAverage>aMap=averageDiffs.get(itemIDA);
10
if
(aMap==
null
){
11
aMap=
new

FastByIDMap<RunningAverage>();
12
averageDiffs.put(itemIDA,aMap);
13
}
14
for
(
int

j=i+
1
;j<length;j++){
15
//Thisisaperformance-criticalblock
16
long
itemIDB=userPreferences.getItemID(j);
17
RunningAverageaverage=aMap.get(itemIDB);
18
if
(average==
null
&&averageCount<maxEntries){
19
average=buildRunningAverage();
20
aMap.put(itemIDB,average);
21
averageCount++;
22
}
23
if
(average!=
null
){
24
average.addDatum(userPreferences.getValue(j)-pref***alue);
25
}
26
}
27
RunningAverageitemAverage=averageItemPref.get(itemIDA);
28
if
(itemAverage==
null
){
29
itemAverage=buildRunningAverage();
30
averageItemPref.put(itemIDA,itemAverage);
31
}
32
itemAverage.addDatum(pref***alue);
33
}
34
return
averageCount;
35
}
以上是启动时做的事,而当某个用户来了,需要为他计算推荐列表时,就快速许多了(是一个空间换时间的思想),下面的方法是某一个用户对其某一个他未评分过的产品的推荐值,参数UserId:用户ID;ItemId:为评分的产品ID
1.再次取出该用户评分过的所有产品(4):PreferenceArrayprefs中保存着ItemID和该用户对它的评分

2.取得上一步得到的prefs中的所有物品与itemID代表的物品之间的平均评分差值(5),其中DiffStoragediffStorage

对象中存放中每对产品间的平均评分差值(而上面启动时的计算都是在MySQLJDBCDiffStorage中实现的,计算后的

值也存于其中,它是DiffStorage接口的实现),所以取得的流程很简单,这里不贴代码了

3.最后就是依次推算评分过的产品到未评分的产品的一个推荐值=平均评分差值(两者间的)+已评分的分值(用

户对其中一个评分),然后将这些推荐值取个平均数(7~37),其中11行判断是否要考虑权重。

01
private
float

doEstimatePreference(
long
userID,
long
itemID)
throws

TasteException{
02
double
count=
0.0
;
03
double
totalPreference=
0.0
;
04
PreferenceArrayprefs=getDataModel().getPreferencesFromUser(userID);
05
RunningAverage[]averages=diffStorage.getDiffs(userID,itemID,prefs);
06
int
size=prefs.length();
07
for
(
int

i=
0
;i<size;i++){
08
RunningAverageaverageDiff=averages[i];
09
if
(averageDiff!=
null
){
10
double
averageDiffValue=averageDiff.getAverage();
11
if
(weighted){
12
double
weight=averageDiff.getCount();
13
if
(stdDevWeighted){
14
double
stdev=((RunningAverageAndStdDev)averageDiff).getStandardDeviation();
15
if
(!Double.isNaN(stdev)){
16
weight/=
1.0

+stdev;
17
}
18
//IfstdevisNaN,thenitisbecausecountis1.Becausewe'reweightingbycount,
19
//theweightisalreadyrelativelylow.Weeffectivelyassumestdevis0.0hereand
20
//thatisreasonableenough.Otherwise,dividingbyNaNwouldyieldaweightofNaN
21
//anddisqualifythisprefentirely
22
//(ThanksDaemmon)
23
}
24
totalPreference+=weight*(prefs.getValue(i)+averageDiffValue);
25
count+=weight;
26
}
else

{
27
totalPreference+=prefs.getValue(i)+averageDiffValue;
28
count+=
1.0
;
29
}
30
}
31
}
32
if
(count<=
0.0
){
33
RunningAverageitemAverage=diffStorage.getAverageItemPref(itemID);
34
return
itemAverage==
null
?Float.NaN:(
float
)itemAverage.getAverage();
35
}
else

{
36
return
(
float
)(totalPreference/count);
37
}
38
}
Slopeone的源码已分析完毕。

其实Slopeone推荐算法很流行,被很多网站使用,包括一些大型网站;我个人认为最主要的原因是它具备如下优势:

1.实现简单并且易于维护。

2.响应即时(只要用户做出一次评分,它就能有效推荐,根据上面代码很容易理解),并且用户的新增评分对推荐数据的改变量较小,应为在内存中存储的是物品间的平均差值,新增的差值只需累加一下,切范围是用户评分过的产品。

3.由于是基于项目的协同过滤算法,适用于当下火热的电子商务网站,原因电子商务网站用户量在几十万到上百万,产品量相对于之则要小得多,所以对产品归类从性能上讲很高效。

分析至此,祝大家周末愉快。

参考资料:

1.Slopeonehttp://zh.wikipedia.org/wiki/Slope_one

2.探索推荐引擎内部的秘密,第2部分:深入推荐引擎相关算法-协同过滤

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: