您的位置:首页 > 编程语言 > Python开发

昨天抓取的数据今天来搞一下

2017-10-14 21:54 225 查看
以昨天抓取的数据为例子,一窥python进行数据分析流程。当然,现实情况是:此次抓取的数据,数据量小、可用字段少。不过,只是以此为例,初探究竟。

首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。

1. 读入数据

导入pandas这个package,直接调用pandas中的read_json方法。



通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。

2. 清洗数据

剔除重复项目



认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。

以上代码的结果如下所示:



检查空值



3. 描述性分析

比如可以看看预估粉丝量排名

mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']



mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]



欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据分析 python 数据