您的位置:首页 > 编程语言 > Python开发

数据科学之初识pandas

2016-03-10 17:37 633 查看
安装:
pip install pandas
导入:
import pandas as pd
from pandas import Series,DataFrame
#Series
数据类型: Series,DataFrame
Series:与numpy中的一维数组相似
初始化:
方式一:
data = [1,2,3,4,5]    #一般为序列
series_data = Series(data)  #不传入任何参数,索引默认从0开始
方式二:
indexes = ['name','shuxue','yuwen','huaxue','yingyu']
series_data =Series(['lizhen',1,2,3,4],index=indexes)  #索引为指定的索引值,此时索引为指定的值,索引的长度与值的长度一定要相等
方式三:
data = {'huaxue': 3, 'name': 'lizhen', 'shuxue': 1, 'yingyu': 4, 'yuwen': 2}
series_from_dict = Series(data)
查看索引:series_data.index
根据索引修改值: series_data.'shuxue' = 3
查看全部数据:series_data.values
设置数据名称: series_data.index.name = 'type'
根据索引查找列的值: series_data['yuwen']
获取多个索引的值: series_data[['yingyu','yuwen']]
导出数据到指定格式(dict,clipboard,csv,json,string,sql):
series_from_dict.to_dict()
两个Series相加:
具有相同的索引才可以相加, 当索引不同时,相加的结果为 NaN
只有值为整数时才有意义
判断索引是否存在:
index_name in series_data #返回True 或者 False
#DataFrame类似表或电子表格
初始化时传入等长列表或numpy数组组成的字典,自动增加索引,且全部列都会被有序排列

方式一:
data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data)  #
方式二:
data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three'])
#数据展示按照column指定的格式
#若传入的列未找到,默认为NaN
方式三:
data = {'Nevada': {2001:2.4,2002:2.9},
'Ohio':{2000:1.5,2001s:1.7,2002:2.4},
}
frame = DataFrame(data)
#外层key解释为column name, 内层key解释为 index name, 内层key不存在时,对应的column默认NaN补齐
设置索引的名称: frame.idnex.name = 'self_index_name'
设置列的名称: frame.columns.name = 'self_columns_name'
查看所有的值: frame.values
查看所有的列名: frame.columns
查看指定列的值:frame[column_name] 或 frame.column_name
查看前N行的值: frame.head(n)
查看后N行值: frame.tail(n)
查看指定索引行的值: frame.ix[[index_name1[,index_name2]]]
修改指定列的值: frame['column_name'] = 'new_value'
注意:当指定的值为单一值时, 会自动在所有的行上广播
指定多个值时, 长度需要和frame的行的长度相等
指定的值可以为Series, Series的索引必须与frame的索引名称相同,索引名不同时,默认插入NaN
删除不需要的列: del frame['column_name']
注意: 索引的名称无法更改
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python Series pandas