[置顶] 【数据建模 极端值的检测】离群值检测
2017-11-06 16:56
253 查看
极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。
处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。
数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。
检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化
可以选择对极端值不敏感的模型,例如KNN,决策树
那么如何检测某个特征数据是否存在极端值呢?
1)对样本数据进行可视化
2) 3-sigma方法检
一般来说,如果某个特征数据,最大值为maxValue,均值为mean,标准差为std。如果满足maxValue>mean+3*std,那么我们就认为这个特征数据存在离群点。
处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。
数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。
检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化
可以选择对极端值不敏感的模型,例如KNN,决策树
那么如何检测某个特征数据是否存在极端值呢?
1)对样本数据进行可视化
2) 3-sigma方法检
一般来说,如果某个特征数据,最大值为maxValue,均值为mean,标准差为std。如果满足maxValue>mean+3*std,那么我们就认为这个特征数据存在离群点。
相关文章推荐
- 【数据建模 极端值的检测】离群值检测
- 异常检测之基于随机变量的熵来进行数据建模和分析
- [置顶] 【数据建模 卡方检验】了解卡方检验
- [置顶] 【数据建模 分类器性能指标】性能测评
- [置顶] 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)
- [置顶] 【数据建模 缺失值处理】缺失值的处理
- [置顶] 【数据建模 神经网络】人工神经网络数据处理
- [置顶] 【数据建模 IV】特征信息度
- [置顶] 【数据建模 类别型变量编码】特殊变量的处理
- [置顶] php检测输入数据是否合法常用的类
- 人脸检测之MTCNN训练自己的数据(部分代码公开!请关注置顶的MTCNN算法优化!)
- [置顶] 【R语言 数据建模】模型验证武器
- [置顶] 【数据建模 方差分析】单因素方差分析
- [置顶] 【数据建模 特征分箱】特征分箱的方法
- 浅谈数据仓库建设中的数据建模方法
- [置顶] java递归与反向递归(逆向递归)查询树tree结构根据关键字过滤数据
- MongoDB之数据建模
- 公文转发流程自定义的数据建模
- 我的angularjs源码学习之旅3——脏检测与数据双向绑定
- pt-table-checksum 3.0.4检测不出主从差异数据