数据科学之初识pandas
2016-03-10 17:37
633 查看
安装:
数据类型: Series,DataFrame
Series:与numpy中的一维数组相似
初始化:
方式一:
根据索引修改值: series_data.'shuxue' = 3
查看全部数据:series_data.values
设置数据名称: series_data.index.name = 'type'
根据索引查找列的值: series_data['yuwen']
获取多个索引的值: series_data[['yingyu','yuwen']]
导出数据到指定格式(dict,clipboard,csv,json,string,sql):
series_from_dict.to_dict()
两个Series相加:
具有相同的索引才可以相加, 当索引不同时,相加的结果为 NaN
只有值为整数时才有意义
判断索引是否存在:
index_name in series_data #返回True 或者 False
#DataFrame类似表或电子表格
初始化时传入等长列表或numpy数组组成的字典,自动增加索引,且全部列都会被有序排列
方式一:
设置列的名称: frame.columns.name = 'self_columns_name'
查看所有的值: frame.values
查看所有的列名: frame.columns
查看指定列的值:frame[column_name] 或 frame.column_name
查看前N行的值: frame.head(n)
查看后N行值: frame.tail(n)
查看指定索引行的值: frame.ix[[index_name1[,index_name2]]]
修改指定列的值: frame['column_name'] = 'new_value'
注意:当指定的值为单一值时, 会自动在所有的行上广播
指定多个值时, 长度需要和frame的行的长度相等
指定的值可以为Series, Series的索引必须与frame的索引名称相同,索引名不同时,默认插入NaN
删除不需要的列: del frame['column_name']
注意: 索引的名称无法更改
pip install pandas导入:
import pandas as pd from pandas import Series,DataFrame#Series
数据类型: Series,DataFrame
Series:与numpy中的一维数组相似
初始化:
方式一:
data = [1,2,3,4,5] #一般为序列 series_data = Series(data) #不传入任何参数,索引默认从0开始方式二:
indexes = ['name','shuxue','yuwen','huaxue','yingyu'] series_data =Series(['lizhen',1,2,3,4],index=indexes) #索引为指定的索引值,此时索引为指定的值,索引的长度与值的长度一定要相等方式三:
data = {'huaxue': 3, 'name': 'lizhen', 'shuxue': 1, 'yingyu': 4, 'yuwen': 2} series_from_dict = Series(data)查看索引:series_data.index
根据索引修改值: series_data.'shuxue' = 3
查看全部数据:series_data.values
设置数据名称: series_data.index.name = 'type'
根据索引查找列的值: series_data['yuwen']
获取多个索引的值: series_data[['yingyu','yuwen']]
导出数据到指定格式(dict,clipboard,csv,json,string,sql):
series_from_dict.to_dict()
两个Series相加:
具有相同的索引才可以相加, 当索引不同时,相加的结果为 NaN
只有值为整数时才有意义
判断索引是否存在:
index_name in series_data #返回True 或者 False
#DataFrame类似表或电子表格
初始化时传入等长列表或numpy数组组成的字典,自动增加索引,且全部列都会被有序排列
方式一:
data = {'state': ['Ohio','Ohio','Ohio'], 'year': [2000,2001,2002], 'pop': [1.5,1.7,3.6] } frame = DataFrame(data) #方式二:
data = {'state': ['Ohio','Ohio','Ohio'], 'year': [2000,2001,2002], 'pop': [1.5,1.7,3.6] } frame = DataFrame(data,columns=['year','state','pop','debt'],index=['one','two','three']) #数据展示按照column指定的格式 #若传入的列未找到,默认为NaN方式三:
data = {'Nevada': {2001:2.4,2002:2.9}, 'Ohio':{2000:1.5,2001s:1.7,2002:2.4}, } frame = DataFrame(data) #外层key解释为column name, 内层key解释为 index name, 内层key不存在时,对应的column默认NaN补齐设置索引的名称: frame.idnex.name = 'self_index_name'
设置列的名称: frame.columns.name = 'self_columns_name'
查看所有的值: frame.values
查看所有的列名: frame.columns
查看指定列的值:frame[column_name] 或 frame.column_name
查看前N行的值: frame.head(n)
查看后N行值: frame.tail(n)
查看指定索引行的值: frame.ix[[index_name1[,index_name2]]]
修改指定列的值: frame['column_name'] = 'new_value'
注意:当指定的值为单一值时, 会自动在所有的行上广播
指定多个值时, 长度需要和frame的行的长度相等
指定的值可以为Series, Series的索引必须与frame的索引名称相同,索引名不同时,默认插入NaN
删除不需要的列: del frame['column_name']
注意: 索引的名称无法更改
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例
- Python 七步捉虫法