Python 数据分析之pandas
2018-01-15 16:29
176 查看
pandas
标签: Python 数据分析pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数,兼具了NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能
导入模块
import numpy as np #导入numpy库 import pandas as pd #导入pandas库
基础数据结构
pandas.Series(data, index):Series类似一维数组,由数据和索引组成,data为列表或和index为列表(一维)格式,data是数据,index是索引s = pd.Series([2*i for i in range(1, 11)]) #基础数据结构series(第一列自动加入序号,从0开始) print(type(s)) #查看类型 print(s) #查看数据
pandas.date_range(start, end, periods):参数分别为起始时间(字符串或时间格式)、结束时间(字符串或时间格式)、指定个数
dates = pd.date_range('20170801', periods = 8) #生成时间格式数组
pandas.DataFrame(data, index, columns):表格型的数据结构,可看成共享同一个index索引的多个Series集合,参数分别为数据、索引、列名
df = pd.DataFrame(np.random.randn(8, 5), index = dates, columns = list('ABCDE')) print(type(df)) print(df) df2 = pd.DataFrame({'A' : 1., 'B' : pd.Timestamp('20170801'), 'C' : pd.Series(1, index = list(range(4)),dtype = 'float32'), 'D' : np.array([3] * 4, dtype = 'int32'), 'E' : pd.Categorical(['test', 'train', 'test', 'train']), 'F' : 'foo' }) print(type(df2)) print(df2)
基础操作
print(df.head(3)) #选择前三行 print(df.tail(3)) #选择后三行 print(df.index) #索引 print(df.values) #数据 print(df.T) #转置 print(df.sort_values(by = 'C')) #按第C列的值排序 print(df.sort_index(axis = 1, ascending = False)) #按索引值排序 print(df.mean()) #每列的平均值 print(df.var()) #每列的方差 print(df.describe()) # 显示信息:每列的个数、平均值、标准差、最小值、最大值 print(df['A']) #按列名选择一列 print(df.A) #按列名选择一列 print(df[: 3, 1 : 3]) # 按切片选择行和列 print(df['20170801' : '20170803']) #按索引值切片选择
pandas.DataFrame.loc:
print(df.loc[dates[0]]) #按索引选择 prin 937d t(df.loc['20170801':'20170803', ['B', 'D']]) #按索引和列名选择('20170801'、'20170802'行,B、D列) print(df.at[dates[0], 'C']) #按索引和列名选择某个值(dates[0]行,C列) print(df.iloc[1 : 3, 2 : 4]) #按切片选择行和列(1、2行,2、3列) print(df.iloc[1, 4]) #选择某个值(第1行第4列) print(df.iat[1, 4]) #选择某个值(第1行第4列) print(df[df > 0]) print(df[df.A < 0][df.B > 0]) print(df[df['E'].isin([1, 2])])
缺失值处理
df4 = df.reindex(index = dates[: 4], columns = list('ABCD') + ['G']) #迁移数据,重建索引 df4.loc[dates[0] : dates[1], 'G'] = 1 #赋值 print(df4) print(df4.dropna()) #丢弃有空值(NaN)的记录 print(df4.fillna(value = 2)) #用2填充空值(NaN)
统计操作
s = pd.Series([1, 2, 2, np.nan, 5, 7, 9, 10], index = dates) print(s) print(s.shift(2)) #值后移两个,用NAN补前两个位置 print(s.diff()) #差分(后一个数减去前一个数的值(有NAN则为NAN)) print(s.value_counts()) #统计每个值出现的次数 print(df.apply(np.cumsum) #累加 print(df.apply(lambda x: x.max() - x.min()))
文件读取
pandas.read_csv():读取csv文件df5 = pd.read_csv('文件路径')
pandas.read_excel():读取excel文件
df6 = pd.read_excel('文件路径')
df5.to_csv() #输出到csv文件 df6.to_excel() #输出到excel文件
相关文章推荐
- python数据分析:在pandas中加载mongodb中的数据
- 用python做数据分析4|pandas库介绍之DataFrame基本操作
- python数据分析学习笔记-Numpy-Matplotlib-Pandas
- Python数据分析处理库Pandas
- Python数据分析入门(一)-Pandas数据结构(Series)
- python/pandas数据分析(十五)-聚合与分组运算实例
- python数据分析之pandas库的DataFrame应用一
- python数据分析入门(一)----安装pandas
- python基础数据分析--pandas(一)
- python中添加数据分析工具numpy和pandas
- Python 数据分析包:pandas 基础
- 基于python的数据分析库Pandas
- Python数据分析:手把手教你用Pandas生成可视化图表
- Python点滴(三)—pandas数据分析与matplotlib画图
- Python数据分析入门(一)-Pandas数据结构(Series)
- Python——数据分析Pandas入门
- python数据挖掘数据分析pandas的介绍及简单例子
- Python数据分析——Pandas数据结构和操作
- Python数据分析与机器学习-Pandas
- 利用Python进行数据分析(11) pandas基础: 层次化索引