您的位置：首页 > 其它

【特征工程系列1】用户评价信息的特征化

2015-09-20 14:09 225 查看

在各种互联网平台中，或多或少都可以获得用户对商品、产品、服务等的评价信息（往往以星级或分数的形式展现）。通过这些信息，我们可以方便的提取这些商品、产品或服务的“质量”特征。

对于“质量”特征，常用的方法是求数学期望。例如，假设某一商品得到1星的次数是x1，2星的次数是x2，3星的次数为x3，4星的次数为x4，5星的次数为x5，这样，可以算出该商品的期望星数为：

E(x)=1*x1/(x1+x2+x3+x4+x5)+2*x2/(x1+x2+x3+x4+x5)+3*x3/(x1+x2+x3+x4+x5)

+4*x4/(x1+x2+x3+x4+x5)+5*x5/(x1+x2+x3+x4+x5)

=(1*x1+2*x2+3*x3+4*x4+5*x5)/(x1+x2+x3+x4+x5)

这是通用直观的方法，但是，仍然存在一个问题：往往4星或者5星的数量远远大于1星或者2星的数量，这样直接拿星数统计计算概率时，1星和2星的概率很低，进而对最后计算期望星数几乎不产生影响；在实际中，却又是1星或2星的信息量更大，更能反映商品的问题。换句话说，各个星级的权重应该是不同的。

为此，我们需要首先对各个星级出现的数量取对数log，以降低数目之间的极不均衡性；然后，再求对数期望，即

E(log(x))=(1*log(x1)+2*log(x2)+3*log(x3)+4*log(x4)+5*log(x5))

/(log(x1)+log(x2)+log(x3)+log(x4)+log(x5))

这种对数期望的好处是，各种商品的期望评分等级可以较分散的分布在1~5星之间，而非对数期望往往使得各商品的期望评分等级较集中的分布在4~5范围内，这不利于后期的商品推荐系统的搭建。当然，在对数期望中，对数的基底是一个经验参数，需要通过离线实验来进一步的确定。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航