您的位置:首页 > 理论基础 > 计算机网络

Python网络数据采集9(译者:哈雷)

2016-08-11 14:39 274 查看
第七章 清理脏数据

脏数据包含很多中,比如停用词,符号等等,可以用正则表达式来去除,当然反过来我们也能使用正则表达式来提取我们所需要的信息。正则表达式的简单用法可以参考其他博客,我的博客中也有。本书中介绍了一种可视化的软件——OpenRefine,不过在我目前的认知当中,我更喜欢直接使用正则表达式来处理。该软件的具体使用方法就不介绍了。清理脏数据依据不同的需求有不同的方法,大致的过程是:首先处理字符串本身,例如大小写,数字,标点符号等,然后再去除停用词等无意义的单词,最后抽取有用的数据。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: