您的位置:首页 > 其它

【特征工程系列1】用户评价信息的特征化

2015-09-20 14:09 225 查看
       在各种互联网平台中,或多或少都可以获得用户对商品、产品、服务等的评价信息(往往以星级或分数的形式展现)。通过这些信息,我们可以方便的提取这些商品、产品或服务的“质量”特征

       对于“质量”特征,常用的方法是求数学期望。例如,假设某一商品得到1星的次数是x1,2星的次数是x2,3星的次数为x3,4星的次数为x4,5星的次数为x5,这样,可以算出该商品的期望星数为:

E(x)=1*x1/(x1+x2+x3+x4+x5)+2*x2/(x1+x2+x3+x4+x5)+3*x3/(x1+x2+x3+x4+x5)

+4*x4/(x1+x2+x3+x4+x5)+5*x5/(x1+x2+x3+x4+x5)

=(1*x1+2*x2+3*x3+4*x4+5*x5)/(x1+x2+x3+x4+x5)

      这是通用直观的方法,但是,仍然存在一个问题:往往4星或者5星的数量远远大于1星或者2星的数量,这样直接拿星数统计计算概率时,1星和2星的概率很低,进而对最后计算期望星数几乎不产生影响;在实际中,却又是1星或2星的信息量更大,更能反映商品的问题。换句话说,各个星级的权重应该是不同的。

       为此,我们需要首先对各个星级出现的数量取对数log,以降低数目之间的极不均衡性;然后,再求对数期望,即

E(log(x))=(1*log(x1)+2*log(x2)+3*log(x3)+4*log(x4)+5*log(x5))

/(log(x1)+log(x2)+log(x3)+log(x4)+log(x5))

        

       这种对数期望的好处是,各种商品的期望评分等级可以较分散的分布在1~5星之间,而非对数期望往往使得各商品的期望评分等级较集中的分布在4~5范围内,这不利于后期的商品推荐系统的搭建。当然,在对数期望中,对数的基底是一个经验参数,需要通过离线实验来进一步的确定。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: