处理样本分布不平衡,偏斜比较厉害的方法总结
2015-09-11 18:59
351 查看
由于,之前一直从事数据挖掘和机器学习方面的学习和工作。在学习和工作中经常会遇到训练的样本中的各个类别的数量存在比较大的差异,而这种差异给模型训练和预测到来了很多困难和挑战。针对这个问题,
我们一般的处理方法有4种:
1.上采样(over-sample);
2.下采样(under-sample);
3.smote方法;
4.调整机器学习算法;
一、上采样也叫过采样,是指用大于信号带宽(2倍或以上)的采样率对模拟信号进行采样,这种采样率是能够唯一重建模拟信号的采样率,一般是模拟到数字的采样过程。我们在分类中,通常是对样本较少的类别进行重复复制从而增加了这个类别的数量。
二、下采样:也是数字到数字的过程,减采样点,用于接收端降低接收机的复杂度。在分类中和上采样相反,它是删除掉类型中数量较多的样本,从而到达各个类型的数量平衡。
三、smote方法,主要是通过计算和和数量类别较小的样本的距离,从距离较近的样本加入到这个类别中,从而到达增加类别数量较小的样本比例。具体可以参考论文 SMOTE:
Synthetic Minority Over-sampling Technique
四、针对特定的机器学习任务,选择对应的算法。
我们一般的处理方法有4种:
1.上采样(over-sample);
2.下采样(under-sample);
3.smote方法;
4.调整机器学习算法;
一、上采样也叫过采样,是指用大于信号带宽(2倍或以上)的采样率对模拟信号进行采样,这种采样率是能够唯一重建模拟信号的采样率,一般是模拟到数字的采样过程。我们在分类中,通常是对样本较少的类别进行重复复制从而增加了这个类别的数量。
二、下采样:也是数字到数字的过程,减采样点,用于接收端降低接收机的复杂度。在分类中和上采样相反,它是删除掉类型中数量较多的样本,从而到达各个类型的数量平衡。
三、smote方法,主要是通过计算和和数量类别较小的样本的距离,从距离较近的样本加入到这个类别中,从而到达增加类别数量较小的样本比例。具体可以参考论文 SMOTE:
Synthetic Minority Over-sampling Technique
四、针对特定的机器学习任务,选择对应的算法。
相关文章推荐
- JAVA- 学习日记-命令行运行java程序
- 详解C++编程中用数组名作函数参数的方法
- 使用Keychain存储用户敏感信息
- KL46 custom board SWD reset is never asserted - SWS Waveform
- Centos7 安装kilo-5 controller(nova)
- 无聊
- linux下tty,控制台,虚拟终端,串口,console(控制台终端)详解http://blog.csdn.net/liaoxinmeng/article/details/5004743
- iOS开发-------简单通讯录(UITableView和CoreData的应用)
- HTTP协议详解
- win2d绘制图片
- (4.3.1.15)android.app.FragmentManager 与 android.support.v4.app.FragmentManager带来的若干Error
- JNI(三)、java代码传递int、String、int[] 并 调用C 代码
- hdu 5162 Jump and Jump...(水题)
- RoboEarth 1
- php 常用的内置函数
- 【前端学习笔记】2015-09-11~~~~ js中ajax请求返回案例
- Leetcode:279Perfect Squares
- 多校联合第八场hdu5387Clock 最大公约数
- 《模式识别和机器学习》资源
- Centos7 安装kilo-4 controller(glance)