您的位置:首页 > 其它

数据清洗与数据预处理浅析

2016-06-06 19:18 274 查看
本文根据https://zhuanlan.zhihu.com/p/20571505?refer=data-analyst-improvement 与自己的一些简单心得整理所得

数据清洗与数据预处理在实际中非常重要。在整个项目的开发过程中,数据清洗与预处理的时间通常占到项目总时长的一半以上。而且,数据清洗与预处理的过程还是个极度考验体力与耐心的活,只有胆大细心对数据敏感对业务熟悉的人才能做好这项工作。

链接文章中所给的一幅图,直接拿过来用了:



结合个人的一些实践,写了一些简单的tips,供大家参考

1.去除/补全有缺失的数据

通过计算进行填充

通过经验或者业务填充

通过其他字段进行填充

以统一指标填充(均值,中位数,众数等)

缺失过多,重新取数

2.去除/修改格式和内容错误数据

最常见的是换行符,空格等。

3.去除/修改逻辑错误的数据

去除不合理值

修正矛盾内容

4.去除不需要的数据

把不要的字段给删除掉
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: