您的位置:首页 > 其它

机器学习笔记(X)线性模型(VI)类别不平衡问题

2017-12-17 19:35 471 查看

类别不平衡问题

分类学习方法的问题

假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达99.8%,但是这样的学习器没有任何价值。

类别不平衡的定义

class-imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况

假设

假定正类样本较少,反类样本较多

处理方法

从线性分类器的角度讨论,在使用y=wTx+b对新样本进行分类的时候,实际上是在用预测出的y值和一个阈值进行比较,通常在y>0.5时判为正例,否则为反例。

关于y

y实际上表达了正例的可能性,几率y1−y反应了正例可能性和反例可能性的比值,此时阈值0.5表明了分类器认为真实正、反例可能性相同,

决策规则

y1−y>1则预测为正例,反之为反例。

类别不平衡的处理

观测几率:m+m−

m+表示正例数目

m−表示反例数目

此时决策规则改为:

y1−y>m+m−则预测为正例,反之为反例。

采样

假定正类样本较少,反类样本较多

欠采样

减少多的,这里除去一些反例样本,使得正反例样本数量接近

过采样

增加少的,这里增加一些正例样本,使得正反例样本数量接近

基于原始训练集

对样本数量不做处理,保持原状,

使用再缩放策略,

再缩放

y′1−y′=y1−y×m−m+

将上式嵌入到决策过程中。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习
相关文章推荐