您的位置:首页 > 业界新闻

通过观影兴趣预测用户画像之年龄属性

2016-05-29 22:44 288 查看
上一篇已经介绍了挖掘的常用工具,以及性别预测时候的6个部分,即分为训练和测试语料准备、特征选择与特征权重计算、线下模型训练与测试、线下效果评估、线上应用、线上效果评估,共6步骤。
 1、训练与测试语料准备
          1.1 人工标记出若干剧集的年龄属性的偏好概率分布。格式如下:
                


         1.2 将某个时间窗口下,用户id对应的视频剧集名称列表及使用频次汇总起来。格式如下
            
                            
        1.3 将1.1和1.2做交集,可计算得每用户id下对应的年龄属性偏好得分,做P=A/(A+B+C+D)方式的归一化操作后进行,可得到按各偏好下的语料样本的可靠程度, P越大则语料越为可信。
        1.4 基于1.3可拆分出自定义数量的训练和测试语料集,格式如下:
              

         2、特征选择与特征权重计算
               依然采用与之前一样的TF/IDF的计算方式,结果如下
      
  3、线下模型训练与测试
  其封闭测试结果如下,如下图:
        
   其开放测试的结果下,如下图:

4,5两步与性别预测接近,在此处省略。

4、线上效果评估
           该评估是针对线上应用的全量数据集合下的预测结果分析。
           如:性别属性全局偏好、性别属性的各端偏好、各剧集和各频道下的性别偏好等评测方法,可以回溯来校验和纠正之前我们模型训练结果的正误、优劣情况。如剧集的年龄属性偏好如下图:
          
    
7、结篇总结
         年龄预测与性别预测方法大致相同,但其最大的难点是数据不均衡问题及多分类问题。
         下节将针对非均衡数据集的处理方法和多分类问题的解决专门讲解。

更多学习讨论,          请加入官方QQ技术群320349384,
                                 官方天亮论坛:http://bbs.yuqing36524.com/
                                 天亮教育视频链接:http://pan.baidu.com/s/1pJJrcqJ
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息