Python网络数据采集9(译者:哈雷)
2016-08-11 14:39
274 查看
第七章 清理脏数据
脏数据包含很多中,比如停用词,符号等等,可以用正则表达式来去除,当然反过来我们也能使用正则表达式来提取我们所需要的信息。正则表达式的简单用法可以参考其他博客,我的博客中也有。本书中介绍了一种可视化的软件——OpenRefine,不过在我目前的认知当中,我更喜欢直接使用正则表达式来处理。该软件的具体使用方法就不介绍了。清理脏数据依据不同的需求有不同的方法,大致的过程是:首先处理字符串本身,例如大小写,数字,标点符号等,然后再去除停用词等无意义的单词,最后抽取有用的数据。
脏数据包含很多中,比如停用词,符号等等,可以用正则表达式来去除,当然反过来我们也能使用正则表达式来提取我们所需要的信息。正则表达式的简单用法可以参考其他博客,我的博客中也有。本书中介绍了一种可视化的软件——OpenRefine,不过在我目前的认知当中,我更喜欢直接使用正则表达式来处理。该软件的具体使用方法就不介绍了。清理脏数据依据不同的需求有不同的方法,大致的过程是:首先处理字符串本身,例如大小写,数字,标点符号等,然后再去除停用词等无意义的单词,最后抽取有用的数据。
相关文章推荐
- Python网络数据采集6(译者:哈雷)
- Python网络数据采集5(译者:哈雷)
- Python网络数据采集10(译者:哈雷)
- python网络数据采集2(译者:哈雷)
- Python网络数据采集7(译者:哈雷)
- Python网络数据采集8(译者:哈雷)
- Python网络数据采集1(译者:哈雷)
- Python网络数据采集4(译者:哈雷)
- Python网络数据采集11(译者:哈雷)
- python网络数据采集3(译者:哈雷)
- Python网络数据采集一书中的错误
- Python网络数据采集
- 好书推荐:Python网络数据采集
- python 网络数据采集——媒体文件
- python网络数据采集的代码
- 笔记之Python网络数据采集
- python网络数据采集
- Python网络数据采集2-wikipedia
- O'Reilly精品图书推荐:Python网络数据采集
- python网络数据采集学习笔记:第二章