通过观影兴趣预测用户画像之年龄属性
2016-05-29 22:44
288 查看
上一篇已经介绍了挖掘的常用工具,以及性别预测时候的6个部分,即分为训练和测试语料准备、特征选择与特征权重计算、线下模型训练与测试、线下效果评估、线上应用、线上效果评估,共6步骤。
1、训练与测试语料准备
1.1 人工标记出若干剧集的年龄属性的偏好概率分布。格式如下:
1.2 将某个时间窗口下,用户id对应的视频剧集名称列表及使用频次汇总起来。格式如下
1.3 将1.1和1.2做交集,可计算得每用户id下对应的年龄属性偏好得分,做P=A/(A+B+C+D)方式的归一化操作后进行,可得到按各偏好下的语料样本的可靠程度, P越大则语料越为可信。
1.4 基于1.3可拆分出自定义数量的训练和测试语料集,格式如下:
2、特征选择与特征权重计算
依然采用与之前一样的TF/IDF的计算方式,结果如下
3、线下模型训练与测试
其封闭测试结果如下,如下图:
其开放测试的结果下,如下图:
4,5两步与性别预测接近,在此处省略。
4、线上效果评估
该评估是针对线上应用的全量数据集合下的预测结果分析。
如:性别属性全局偏好、性别属性的各端偏好、各剧集和各频道下的性别偏好等评测方法,可以回溯来校验和纠正之前我们模型训练结果的正误、优劣情况。如剧集的年龄属性偏好如下图:
7、结篇总结
年龄预测与性别预测方法大致相同,但其最大的难点是数据不均衡问题及多分类问题。
下节将针对非均衡数据集的处理方法和多分类问题的解决专门讲解。
更多学习讨论, 请加入官方QQ技术群320349384,
官方天亮论坛:http://bbs.yuqing36524.com/
天亮教育视频链接:http://pan.baidu.com/s/1pJJrcqJ
1、训练与测试语料准备
1.1 人工标记出若干剧集的年龄属性的偏好概率分布。格式如下:
1.2 将某个时间窗口下,用户id对应的视频剧集名称列表及使用频次汇总起来。格式如下
1.3 将1.1和1.2做交集,可计算得每用户id下对应的年龄属性偏好得分,做P=A/(A+B+C+D)方式的归一化操作后进行,可得到按各偏好下的语料样本的可靠程度, P越大则语料越为可信。
1.4 基于1.3可拆分出自定义数量的训练和测试语料集,格式如下:
2、特征选择与特征权重计算
依然采用与之前一样的TF/IDF的计算方式,结果如下
3、线下模型训练与测试
其封闭测试结果如下,如下图:
其开放测试的结果下,如下图:
4,5两步与性别预测接近,在此处省略。
4、线上效果评估
该评估是针对线上应用的全量数据集合下的预测结果分析。
如:性别属性全局偏好、性别属性的各端偏好、各剧集和各频道下的性别偏好等评测方法,可以回溯来校验和纠正之前我们模型训练结果的正误、优劣情况。如剧集的年龄属性偏好如下图:
7、结篇总结
年龄预测与性别预测方法大致相同,但其最大的难点是数据不均衡问题及多分类问题。
下节将针对非均衡数据集的处理方法和多分类问题的解决专门讲解。
更多学习讨论, 请加入官方QQ技术群320349384,
官方天亮论坛:http://bbs.yuqing36524.com/
天亮教育视频链接:http://pan.baidu.com/s/1pJJrcqJ
相关文章推荐
- 氪周刊:关注互联网创业
- 据说程序员才会看懂的趣图……
- 数据中心和云未来的十二大趋势
- 《互联网运营智慧》十一月进展
- 康诺云推出三款智能硬件产品,为健康管理业务搭建数据池
- 互联网业内的迷雾 谨慎选择虚拟主机
- 互联网应用广泛 电子商务正当时
- 风雨历练十四年 互联网引领信息化
- 观察:中小网站将渐渐成为互联网的主角
- 互联网迅猛崛起 IDC能否迎来发展高峰期
- MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程
- 数据挖掘之Apriori算法详解和Python实现代码分享
- php+ajax导入大数据时产生的问题处理
- C# 大数据导出word的假死报错的处理方法
- 用Python实现协同过滤的教程
- Python利用多进程将大量数据放入有限内存的教程
- mongodb常遇到的错误。
- 详解BI/数据分析/数据挖掘/业务分析概念 7fe0