您的位置：首页 > 业界新闻

通过观影兴趣预测用户画像之年龄属性

2016-05-29 22:44 288 查看

上一篇已经介绍了挖掘的常用工具，以及性别预测时候的6个部分，即分为训练和测试语料准备、特征选择与特征权重计算、线下模型训练与测试、线下效果评估、线上应用、线上效果评估，共6步骤。
1、训练与测试语料准备
1.1 人工标记出若干剧集的年龄属性的偏好概率分布。格式如下：

1.2 将某个时间窗口下，用户id对应的视频剧集名称列表及使用频次汇总起来。格式如下


1.3 将1.1和1.2做交集，可计算得每用户id下对应的年龄属性偏好得分，做P=A/(A+B+C+D)方式的归一化操作后进行，可得到按各偏好下的语料样本的可靠程度， P越大则语料越为可信。
1.4 基于1.3可拆分出自定义数量的训练和测试语料集，格式如下：


2、特征选择与特征权重计算
依然采用与之前一样的TF/IDF的计算方式，结果如下

3、线下模型训练与测试
其封闭测试结果如下，如下图：

其开放测试的结果下，如下图：

4，5两步与性别预测接近，在此处省略。

4、线上效果评估
该评估是针对线上应用的全量数据集合下的预测结果分析。
如：性别属性全局偏好、性别属性的各端偏好、各剧集和各频道下的性别偏好等评测方法，可以回溯来校验和纠正之前我们模型训练结果的正误、优劣情况。如剧集的年龄属性偏好如下图：


7、结篇总结
年龄预测与性别预测方法大致相同，但其最大的难点是数据不均衡问题及多分类问题。
下节将针对非均衡数据集的处理方法和多分类问题的解决专门讲解。

更多学习讨论，请加入官方QQ技术群320349384,
官方天亮论坛:http://bbs.yuqing36524.com/
天亮教育视频链接：http://pan.baidu.com/s/1pJJrcqJ

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 用户画像年龄属性预测数据挖掘大数据互联网

相关文章推荐

新的分享

章节导航