您的位置：首页 > 编程语言 > Python开发

数据科学之初识pandas

2016-03-10 17:37 633 查看

安装：

pip install pandas

导入:

import pandas as pd
from pandas import Series,DataFrame

#Series
数据类型： Series,DataFrame
Series：与numpy中的一维数组相似
初始化：
方式一：

data = [1,2,3,4,5]    #一般为序列
series_data = Series(data)  #不传入任何参数,索引默认从0开始

方式二：

indexes = ['name','shuxue','yuwen','huaxue','yingyu']
series_data =Series(['lizhen',1,2,3,4],index=indexes)  #索引为指定的索引值,此时索引为指定的值，索引的长度与值的长度一定要相等

方式三：

data = {'huaxue': 3, 'name': 'lizhen', 'shuxue': 1, 'yingyu': 4, 'yuwen': 2}
series_from_dict = Series(data)

查看索引：series_data.index
根据索引修改值： series_data.'shuxue' = 3
查看全部数据：series_data.values
设置数据名称： series_data.index.name = 'type'
根据索引查找列的值： series_data['yuwen']
获取多个索引的值： series_data[['yingyu','yuwen']]
导出数据到指定格式(dict,clipboard,csv,json,string,sql)：
series_from_dict.to_dict()
两个Series相加：
具有相同的索引才可以相加, 当索引不同时,相加的结果为 NaN
只有值为整数时才有意义
判断索引是否存在：
index_name in series_data #返回True 或者 False
#DataFrame类似表或电子表格
初始化时传入等长列表或numpy数组组成的字典，自动增加索引，且全部列都会被有序排列

方式一：

data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data)  #

方式二：

data = {'state': ['Ohio','Ohio','Ohio'],
'year': [2000,2001,2002],
'pop': [1.5,1.7,3.6]
}
frame = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three'])
#数据展示按照column指定的格式
#若传入的列未找到,默认为NaN

方式三：

data = {'Nevada': {2001:2.4,2002:2.9},
'Ohio':{2000:1.5,2001s:1.7,2002:2.4},
}
frame = DataFrame(data)
#外层key解释为column name, 内层key解释为 index name, 内层key不存在时,对应的column默认NaN补齐

设置索引的名称： frame.idnex.name = 'self_index_name'
设置列的名称： frame.columns.name = 'self_columns_name'
查看所有的值： frame.values
查看所有的列名： frame.columns
查看指定列的值：frame[column_name] 或 frame.column_name
查看前N行的值： frame.head(n)
查看后N行值： frame.tail(n)
查看指定索引行的值： frame.ix[[index_name1[,index_name2]]]
修改指定列的值： frame['column_name'] = 'new_value'
注意：当指定的值为单一值时, 会自动在所有的行上广播
指定多个值时, 长度需要和frame的行的长度相等
指定的值可以为Series, Series的索引必须与frame的索引名称相同,索引名不同时，默认插入NaN
删除不需要的列： del frame['column_name']
注意: 索引的名称无法更改

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python Series pandas

相关文章推荐

新的分享

章节导航