您的位置:首页 > 编程语言 > Python开发

Python数据分析与挖掘实战(Pandas,Matplotlib常用方法)

2017-06-13 15:08 1551 查看
操作系统:Windows

Python:3.5

欢迎加入学习交流QQ群:657341423

上节讲到数据分析和挖掘需要的库,其中最主要的是Pandas,Matplotlib。

Pandas:主要是对数据分析,计算和统计,如求平均值,方差等。

Matplotlib:主要结合Pandas生成图像。两者往往结合使用的。

Pandas:



上图中针对的是对象为DataFrame或者Series

对于DataFrameSeries区别,参考一下官网说明就知道该数据结构了。

回归到上图的使用方法







解释:

读取excel里面的数据,然后生成data数据。然后过滤一下数据,这个过滤可有可无,然后直接使用data.describe()即可。因为对象data是DataFrame格式。

如果使用其他方法,data.sum(),data.var()即可得出,如下



这里只是给出其他统计方式,如果还需要其他数据,如极差,四分位数间距这些,需要计算得出。这里可以这样:



解释:

statistics是为data.describe(),不能直接是data。

statistics.loc['aa'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距


statistics.loc[‘aa’]是可以自定义名称的。也就是我们常说的新增统计数据。

Pandas累积统计特征函数



用法:



结果:



这里是统计2行的和,因为和我设置window=2相关的。你会发现第一个数是NaN的,因为第一行不够2行,无法累加。

Matplotlib作图:



在作图之前,基本上都要做一些设置:

import matplotlib.pyplot as plt #导入图像库

plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用来正常显示中文标签

plt.rcParams[‘axes.unicode_minus’] = False #用来正常显示负号

plt.figure(figsize=(7,5)) #建立图像,创建图像区域,figsize=(7,5)指定比例

默认比例可以为:plt.figure()

如果结合Pandas使用,用法

data.plot(kind=’bar’)

kind参数作用指定作图类型,line(线),bar(条形),barh、hist(直方图),box(箱线图),kde(密度图),area、pie(饼图)、scatter(散点图)

data为DataFrame或Series。

基本上Pandas,Matplotlib两者结合作图都是这种方法。

例子:





这个是通过excel数据生成图形。

如果是饼图



参考资料

参考资料源文件

如果Matplotlib要单独使用,用法和上述又不一样了。

参考
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐