昨天抓取的数据今天来搞一下
2017-10-14 21:54
225 查看
以昨天抓取的数据为例子,一窥python进行数据分析流程。当然,现实情况是:此次抓取的数据,数据量小、可用字段少。不过,只是以此为例,初探究竟。
首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。
1. 读入数据
导入pandas这个package,直接调用pandas中的read_json方法。
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe20xdxLPTxW40NLYOpYXuh4dgwBkfx3tZebxic3v8LYBXVkVvBPPH9Ocdg/0?wx_fmt=png)
通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。
2. 清洗数据
剔除重复项目
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe20fARWic4Du9qLSHt4CX1CGIycDAicV0lYsct2hR4D2vwN6CWkRJm2SibZg/0?wx_fmt=png)
认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。
以上代码的结果如下所示:
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe203542OuG74NkgrKWhYqyE92r6E2MvHmdyibRAO4y4uN3H7dNyOqY2tVw/0?wx_fmt=png)
检查空值
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe20YvicR0zan85kVSwPo8rJ2c0AQgG5un2PcN78v02gchlFbssAyDEtQqQ/0?wx_fmt=png)
3. 描述性分析
比如可以看看预估粉丝量排名
mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe20v0x7ZKajr8UiaNI0iauJ6WMtlKL9wHET4n2Lee4ic7TEkiaFiafxkrmfW4A/0?wx_fmt=png)
mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]
![](https://mmbiz.qpic.cn/mmbiz_png/DIPibVicvy4oOfjaWmAgrwWJplaRRnSe20jOrAa1yYglugAtKvRbXg4cChj3H3k4icZPicVx47Vv6zfU3LQ0k4qAHA/0?wx_fmt=png)
欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析
首先,昨天我们抓取的数据是以json格式存储到文件中的。读取json文件,python的pandas可以大显身手,使用及其方便。
1. 读入数据
导入pandas这个package,直接调用pandas中的read_json方法。
通过head查看此数据框的第一行,由于字段较多,pandas只显示首尾部分,结果不再展示。
2. 清洗数据
剔除重复项目
认为同一个wx_origin_id的是同一个微信号,所以要使用参数subset,否则会默认检查所有字段,只有两条数据所有字段的值都相等时,才算是重复数据。
以上代码的结果如下所示:
检查空值
3. 描述性分析
比如可以看看预估粉丝量排名
mydata.sort_values('fans_num_estimate', ascending=False).head(10)['wx_alias']
mydata.sort_values('fans_num_estimate', ascending=False).head(10).loc[:,['wx_alias','fans_num_estimate']]
欢迎点击下方二维码,关注《数据分析师手记》,跟三月桑一起学习数据分析
相关文章推荐
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- MySql查询昨天和今天的数据datediff()函数
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- SQL语句来查询今天、昨天、7天内、30天的数据,经典!
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法分析总结
- mysql查询今天、昨天、7天、近30天、本月数据
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
- Sql Server中查询今天、昨天、本周、上周、本月、上月数据
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
- mysql 中sql 语句查询今天、昨天、7天、近30天、本月、上一月 数据
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- mysql查询今天、昨天、7天、近30天、本月、上一月 数据
- mysql查询今天,昨天,近7天,近30天,本月,上一月数据的方法
- mysql查询今天、昨天、7天、近30天、本月数据
- mysql查询今天、昨天、7天、近30天、本月数据
- 貌似昨天忘记志一下了。那今天就志一下关于培训。