机器学习笔记(X)线性模型(VI)类别不平衡问题
2017-12-17 19:35
471 查看
类别不平衡问题
分类学习方法的问题
假设正类和反类的样例数目相当,但是有时候样例数量的差别较大,比如正例样本有998个,而反例样本只有2个,此时学习方法如果一直返回正例则预测的准确度会高达99.8%,但是这样的学习器没有任何价值。类别不平衡的定义
class-imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况假设
假定正类样本较少,反类样本较多处理方法
从线性分类器的角度讨论,在使用y=wTx+b对新样本进行分类的时候,实际上是在用预测出的y值和一个阈值进行比较,通常在y>0.5时判为正例,否则为反例。关于y
y实际上表达了正例的可能性,几率y1−y反应了正例可能性和反例可能性的比值,此时阈值0.5表明了分类器认为真实正、反例可能性相同,决策规则
y1−y>1则预测为正例,反之为反例。类别不平衡的处理
观测几率:m+m−m+表示正例数目
m−表示反例数目
此时决策规则改为:
y1−y>m+m−则预测为正例,反之为反例。
采样
假定正类样本较少,反类样本较多欠采样
减少多的,这里除去一些反例样本,使得正反例样本数量接近
过采样
增加少的,这里增加一些正例样本,使得正反例样本数量接近
基于原始训练集
对样本数量不做处理,保持原状,
使用再缩放策略,
再缩放
y′1−y′=y1−y×m−m+
将上式嵌入到决策过程中。
相关文章推荐
- 机器学习笔记(VI)线性模型(II)多维最小二乘法
- 机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当,或者模型中加入惩罚项
- 机器学习笔记 - 线性模型与线形回归
- [机器学习入门] 李宏毅机器学习笔记-25(Sturctured Linear Model;结构化预测-线性模型)
- 人工智障学习笔记——机器学习(2)线性模型
- 机器学习笔记五:广义线性模型(GLM)
- 机器学习笔记(三)线性模型
- [置顶] 吴恩达机器学习笔记——指数分布族&广义线性模型&逻辑回归概率模型推导
- 机器学习笔记四 - 牛顿方法、指数分布族、广义线性模型、广义线性模型(多项式分布)
- 机器学习笔记-线性模型
- 【机器学习-斯坦福】学习笔记4 ——牛顿方法;指数分布族; 广义线性模型(GLM)
- [机器学习笔记]三:Generalized Linear Models(广义线性模型)
- 机器学习线性模型学习笔记
- 机器学习模型构建时正负样本不平衡带来的问题及解决方法
- 【学习笔记】斯坦福大学公开课(机器学习) 之广义线性模型
- 机器学习笔记-利用线性模型进行分类
- 机器学习---斯坦福机器学习笔记:模型优化与问题诊断
- 机器学习笔记 - 线性可分问题
- 周志华《机器学习》笔记:第3章 线性模型
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)