[置顶] 文本分类问题中数据不均衡的解决方法的探索
2018-01-11 16:24
555 查看
Data Skew
数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。
数据倾斜的解决方法
1.过采
4000
样和欠采样
过采样
过采样是处理样本不均衡的一个基本解决方法,其实现简单高效,通过拓展样本数少的类别的样本来解决样本不均衡问题。
1.直接复制,即不断复制类别样本数少的类别样本。
2.插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。
欠采样
与过采样类似,只是采用减少类别样本数多的类别的样本数目
1.直接删除
2.随机删除
3.聚类
2.Loss解决样本不均衡问题
RBG和Kaiming给出的相当牛逼的方法,这里不做详细介绍。详情见链接:http://blog.csdn.net/u014380165/article/details/77019084
3.以上各种方法,要么相当复杂,要么效果不是那么好。(针对个人文本分类项目)
首先凯明大神的focal loss 方法,针对像深度神经网络这些复杂的模型,具有很好的使用价值,但是针对传统分类器,小样本集情况下,实施有一定的难度。而简单过采样和欠采样对与文本分类问题效果几乎为0。于是乎,本文简单介绍一下过采样中不是简单的样本复制,二是采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。方法简单有效。实测效果:
predict_train_Accuracy | 98.37% | 82.51% |
predict_test_Accuracy | 70.78% | 81.32% |
相关文章推荐
- [置顶] Win8.1慎用360优化,可能导致安装驱动出现数据无效的问题。附解决方法
- asp.net中SqlDataReader获取数据存在的问题解决方法
- Sybase BCP导入数据时碰到中文编码问题的解决方法
- 关于2147217913 从 char 数据类型到 datetime 数据类型的转换导致 datetime 值越界 的问题解决方法
- 解决列表框更新数据的时候的闪烁问题(VC防止窗口及其控件(如CListCtrl)闪烁的简单方法(一组有用的宏) )
- JSP数据和JavaScirpt数据交互使用问题的一种解决方法
- asp读sql数据时出现乱码问题的解决方法
- MyEclipse生成的Spring+Hibernate无法保存数据问题的解决方法
- jquery中ajax方法提交数据时,中文乱码问题解决。
- Powerdesgner数据模型设计中,属性名同名问题的解决方法
- 关于管道的大量数据传输问题解决方法 ( vc )
- 客户端改变状态,服务器服务器端读不到数据的问题,大家有什么好的解决方法.
- oracle备份文件恢复到oracle10的数据乱码问题解决方法
- JSP数据和JavaScirpt数据交互使用问题的一种解决方法
- asp读sql server数据出现乱码问题解决方法
- SQL Server2000中数据从一个表导入加一个表出现的问题及解决方法
- JSP数据和JavaScirpt数据交互使用问题的一种解决方法
- 有关Powerdesgner数据模型设计中,属性名同名问题的解决方法
- excel中倒数据到sql server2000中部分数据为空的问题的解决方法
- 解决方法:ASP读取数据库中的中文数据出现乱码的问题