python数据分析与机器学习-用户流失预警
2018-03-03 13:42
561 查看
本文针对某网站游戏用户数据,运用python、pandas、matplotlib及sklearn,对初始数据进行数据清理,并结合机器学习的一些算法,建立关于用户流失预警的简单模型,重点是模型评估指标,可作为入门机器学习的小案例。
1.加载数据,查看数据特征,分析特征。
2.删除无用特征,处理字符型特征及样本标签(可参考贷款申请利润最大化),将数据标准化,消除量纲对机器学习建模的影响,这里使用sklearn自带的数据标准化函数。
3.由于本案例样本数目有限,建模时采用交叉验证的方式,首先建立模型训练函数,便于后期更换机器学习算法时直接调用。
4.接下来考虑模型效果评估指标,一般情况下采取precision进行模型效果评估,但考虑本案例是用户流失预警,其需求为:对于流失用户,我们预测的准确率应该更高才更合适,即考虑召回率recall,故引用混淆矩阵。
5.下面是运用SVM,RF,KNN算法训练出的模型的精度,召回率以及相应的混淆矩阵。
总结:以上结果显示,Random forest算法训练的模型精度以及召回率都相对较好,可在此算法的基础上对模型进行调优改进。调优方式可参考上篇贷款申请利润最大化,如通过上采样均衡样本数量,增加新的特征等。
1.加载数据,查看数据特征,分析特征。
2.删除无用特征,处理字符型特征及样本标签(可参考贷款申请利润最大化),将数据标准化,消除量纲对机器学习建模的影响,这里使用sklearn自带的数据标准化函数。
3.由于本案例样本数目有限,建模时采用交叉验证的方式,首先建立模型训练函数,便于后期更换机器学习算法时直接调用。
4.接下来考虑模型效果评估指标,一般情况下采取precision进行模型效果评估,但考虑本案例是用户流失预警,其需求为:对于流失用户,我们预测的准确率应该更高才更合适,即考虑召回率recall,故引用混淆矩阵。
5.下面是运用SVM,RF,KNN算法训练出的模型的精度,召回率以及相应的混淆矩阵。
总结:以上结果显示,Random forest算法训练的模型精度以及召回率都相对较好,可在此算法的基础上对模型进行调优改进。调优方式可参考上篇贷款申请利润最大化,如通过上采样均衡样本数量,增加新的特征等。
相关文章推荐
- Python数据分析与机器学习-用户流失预警
- Python数据分析与机器学习-Seaborn
- Python数据分析与机器学习-贝叶斯实现拼写检查器
- Python数据分析与机器学习-足球赛事数据集
- Python数据分析与机器学习-神经网络
- Python数据分析与机器学习-使用sklearn构造决策树模型
- 2018python数据分析与机器学习实战(视频+源码+课件)
- 浅谈网络游戏中新用户首日流失的数据分析
- Python数据分析与机器学习-贷款申请最大化利润
- Python数据分析与机器学习-使用Kmeans进行图像压缩
- 浅谈网络游戏中新用户首日流失的数据分析
- 关于 Python 数据抓取 & 分析 & 机器学习 & 挖掘 & 神经网络 内容的分享。
- python实现人人网用户数据爬取及简单分析
- Python数据分析与机器学习-梯度下降策略
- python数据分析(预测性分析与机器学习)
- 机器学习项目实战之用户流失预警
- 关于 Python 数据抓取、分析、挖掘、机器学习和Python 分布式计算内容分享
- Python数据分析与机器学习-PCA主成分分析
- 关于用户流失,数据分析可以挽回一线生机
- Python数据分析与机器学习-线性回归算法原理推导