您的位置:首页 > 其它

样本不均衡问题——smote算法源码实现

2018-01-05 09:51 323 查看
在机器学习中,样本不均衡往往会给模型带来过拟合现象,目前有许多种处理方法,比如欠采样,过采样,加权处理等等,本篇博文介绍的是过采样中一种常见算法--smote算法

smote算法论文:https://www.jair.org/media/953/live-953-2037-jair.pdf 

smote算法原理如下:

对样本中的每一个样本x算KNN(KNN算法是计算当前样本到其他样本最短的K个距离)

取前k个近邻样本,在这k个样本中随机取一个,记做x1

取(0,1)随机数gap,计算(人造)样本 = x + gap*(x - x1)

    smote算法框架如下:



源码:







新样本:



论文中的效果图:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  smote算法源码