您的位置：首页 > 其它

机器学习笔记（X）线性模型(VI)类别不平衡问题

2017-12-17 19:35 471 查看

类别不平衡问题

分类学习方法的问题

假设正类和反类的样例数目相当，但是有时候样例数量的差别较大，比如正例样本有998个，而反例样本只有2个，此时学习方法如果一直返回正例则预测的准确度会高达99.8%，但是这样的学习器没有任何价值。

类别不平衡的定义

class-imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况

假设

假定正类样本较少，反类样本较多

处理方法

从线性分类器的角度讨论，在使用y=wTx+b对新样本进行分类的时候，实际上是在用预测出的y值和一个阈值进行比较，通常在y>0.5时判为正例，否则为反例。

关于y

y实际上表达了正例的可能性，几率y1−y反应了正例可能性和反例可能性的比值，此时阈值0.5表明了分类器认为真实正、反例可能性相同，

决策规则

y1−y>1则预测为正例，反之为反例。

类别不平衡的处理

观测几率：m+m−

m+表示正例数目

m−表示反例数目

此时决策规则改为：

y1−y>m+m−则预测为正例，反之为反例。

采样

假定正类样本较少，反类样本较多

欠采样

减少多的，这里除去一些反例样本，使得正反例样本数量接近

过采样

增加少的，这里增加一些正例样本，使得正反例样本数量接近

基于原始训练集

对样本数量不做处理，保持原状，

使用再缩放策略，

再缩放

y′1−y′=y1−y×m−m+

将上式嵌入到决策过程中。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航