您的位置:首页 > 其它

离群值处理方法

2018-03-14 15:45 120 查看

目录

基于标准差(SD)法
基于MAD的中心距离计算法
1.基于标准差(Standard2Deviations, SD)法a为一组数的平均数,b为这组数的标准差,则超出[a-2b, a+2b]范围的值即被认为离群值。总结这种方法不是特别的靠谱,因为离群值的出现可能反过来很大程度影响平均数和标准差,所以平均数或者标准差受离群值的制约而使得这个检测方法不靠谱。
2.基于绝对离差中位数(Median Absolute Deviation, MAD)的中心距离计算法(1)计算所有观察点的中位数median(X);(2)计算每个观察点与中位数的绝对偏差值abs(X-median(X));(3)计算(2)中的绝对偏差值的中位数,即MAD = median(abs(X - median(X)));(4)将(2)得到的值除以(3)的值,得到一组基于MAD的所有观察点的离中心的距离值abs(X - median(X))/MAD.
总结这是一种稳健对抗离群数据的距离值方法,采用计算各观测值与平均值的距离总和的方法。放大了离群值的影响,相比基于SD的中位数距离法,它可以更清晰地从正常观察点中检测出离群值来。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息