您的位置:首页 > 其它

[置顶] 【数据建模 极端值的检测】离群值检测

2017-11-06 16:56 253 查看
极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。

处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。

数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。

检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化

可以选择对极端值不敏感的模型,例如KNN,决策树

那么如何检测某个特征数据是否存在极端值呢?

1)对样本数据进行可视化

2) 3-sigma方法检

一般来说,如果某个特征数据,最大值为maxValue,均值为mean,标准差为std。如果满足maxValue>mean+3*std,那么我们就认为这个特征数据存在离群点。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: