您的位置:首页 > 其它

[置顶] 文本分类问题中数据不均衡的解决方法的探索

2018-01-11 16:24 555 查看


Data Skew

数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。


数据倾斜的解决方法


1.过采
4000
样和欠采样


过采样


    过采样是处理样本不均衡的一个基本解决方法,其实现简单高效,通过拓展样本数少的类别的样本来解决样本不均衡问题。

    1.直接复制,即不断复制类别样本数少的类别样本。

    2.插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。

欠采样

   与过采样类似,只是采用减少类别样本数多的类别的样本数目

   1.直接删除

   2.随机删除

   3.聚类


2.Loss解决样本不均衡问题 

RBG和Kaiming给出的相当牛逼的方法,这里不做详细介绍。

详情见链接:http://blog.csdn.net/u014380165/article/details/77019084


3.以上各种方法,要么相当复杂,要么效果不是那么好。(针对个人文本分类项目)


首先凯明大神的focal loss 方法,针对像深度神经网络这些复杂的模型,具有很好的使用价值,但是针对传统分类器,小样本集情况下,实施有一定的难度。而简单过采样和欠采样对与文本分类问题效果几乎为0。于是乎,本文简单介绍一下过采样中不是简单的样本复制,二是采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。方法简单有效。实测效果:

predict_train_Accuracy98.37%82.51%
predict_test_Accuracy70.78%81.32%
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐