python 数据分析学习笔记 (第三章)
2017-04-04 10:31
756 查看
百度云代码连接:http://pan.baidu.com/s/1hr4QGgG 密码:puxw
boxplot 箱形图
统计量分析
帕累托图
相关系数的 d.corr()
d.describe()
boxplot 箱形图
catering_sale = '../data/catering_sale.xls' #餐饮数据 data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列 import matplotlib.pyplot as plt #导入图像库 plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号 plt.figure() #建立图像 p = data.boxplot(return_type='dict') #画箱线图,直接使用DataFrame的方法 x = p['fliers'][0].get_xdata() # 'flies'即为异常值的标签 y = p['fliers'][0].get_ydata() y.sort() #从小到大排序,该方法直接改变原对象 #用annotate添加注释 #其中有些相近的点,注解会出现重叠,难以看清,需要一些技巧来控制。 #以下参数都是经过调试的,需要具体问题具体调试。 for i in range(len(x)): if i>0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱线图
统计量分析
from __future__ import print_function import pandas as pd catering_sale = '../data/catering_sale.xls' #餐饮数据 data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列 data = data[(data[u'销量'] > 400)&(data[u'销量'] < 5000)] #过滤异常数据 statistics = data.describe() #保存基本统计量 statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #极差 statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #变异系数 statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距 print(statistics)
帕累托图
dish_profit = '../data/catering_dish_profit.xls' #餐饮菜品盈利数据 data = pd.read_excel(dish_profit) data = data[u'盈利'].copy() data.sort(ascending = False) import matplotlib.pyplot as plt #导入图像库 plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号 plt.figure() data.plot(kind='bar') plt.ylabel(u'盈利(元)') p = 1.0*data.cumsum()/data.sum() p.plot(color = 'r', secondary_y = True, style = '-o',linewidth = 2) plt.annotate(format(p[6], '.4%'), xy = (6, p[6]), xytext=(6*0.9, p[6]*0.9), arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) #添加注释,即85%处的标记。这里包括了指定箭头样式。 plt.ylabel(u'盈利(比例)') plt.show()
相关系数的 d.corr()
from __future__ import print_function import pandas as pd catering_sale = '../data/catering_sale_all.xls' #餐饮数据,含有其他属性 data = pd.read_excel(catering_sale) #读取数据,指定“日期”列为索引列 data.corr() #相关系数矩阵,即给出了任意两款菜式之间的相关系数 data.corr()[u'百合酱蒸凤爪'] #只显示“百合酱蒸凤爪”与其他菜式的相关系数 data[u'百合酱蒸凤爪'].corr(data[u'翡翠蒸香茜饺']) #计算“百合酱蒸凤爪”与“翡翠蒸香茜饺”的相关系数
d.describe()
import pandas as pd cc='../data/catering_sale.xls' data=pd.read_excel(cc) data.describe()
相关文章推荐
- Data Analysis学习笔记 --- Python数据分析入门知识
- python数据分析与挖掘学习笔记(5)-公司客户价值判断分析与聚类算法
- 利用Python进行数据分析 学习笔记
- 数据分析 R语言实战 学习笔记 第三章 数据预处理
- 利用Python进行数据分析笔记-第三章-ipython
- python数据分析与挖掘学习笔记(1)-基础及准备
- Python玩转数据分析学习笔记-03数据获取
- 学习笔记-python数据分析-环境配置
- Python学习笔记(0)——编程0基础数据分析进阶之路
- Python学习笔记(二)——编程0基础数据分析进阶之路
- 【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)
- Python & 数据分析学习笔记[第2篇]
- python数据分析与挖掘学习笔记(7)-交通路标自动识别实战与神经网络算法
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- 利用python进行数据分析(学习笔记)
- python数据分析与挖掘学习笔记(4)-垃圾邮件自动识别
- python数据分析与挖掘学习笔记(6)-电商网站数据分析及商品自动推荐实战与关联规则算法
- python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
- 利用Pythonj进行数据分析学习笔记——第五章 pandas入门
- Python学习笔记(一)——编程0基础数据分析进阶之路