您的位置:首页 > 其它

pandas入门笔记 Series和DataFrame的基础学习

2020-07-07 16:39 253 查看

pandas入门笔记

学习《利用Python进行数据分析》第2版,一些笔记将在后续更新

内容部分引用于《利用Python进行数据分析》第2版(Wes McKinney著,徐敬一译),仅供大家一起学习交流

pandas所包含的数据结构和数据处理工具的设计使得在python中进行数据清洗和分析非常方便。

pandas和numpy的不同

pandas用来处理表格型或异质型数据
而numpy更适合处理同质型的数值类数组数据

导入pandas

import pandas as pd

导入两个常用的工具数据结构 Series 和 DataFrame

from pandas import Series, DataFrame

Series

一维的数组型对象,包含了以个值序列,数据标签(索引index)

示例

obj=pd.Series([1,0,2,4])

0 1
1 0
2 2
3 4
dtype: int64

索引默认从0开始,创建索引序列用index=[ ]
可以通过values 属性和 index 属性分别获得Series对象的值和序列
obj.values // obj.index

如果已有字典dict,可以使用字典生成一个Series

obj=pd.Series(dict)

DataFrame

二维,矩阵的数据表,包含已排序的列集合,每一列可以是不同的值类型。
有行索引,列索引

data={'name':['Anna','Bob','Crystal'],
'gender':['female','male','female'],
'year':[1990,1999,2000]}
pd.DataFrame(data)

指定排序,columns=[ ]

获取某一行可以通过 frame.loc[ ] 来选取

修改列的引用,frame['新列‘]=?

索引对象不可变

重建索引 reindex
method=‘ffill’ 将值向前填充

apply 方法将函数应用到一行或一列

applymap 格式化字符串

format=lambda x:'%.2f' %x
frame.applymap(format)

排序
sort_index
默认升序

降序ascending=False

frame.sort_index(axis=1, ascengding=False)

若要根据series的值进行排列,使用sort_values方法,缺失值NaN默认排在最后

对DataFrame排序时,使用一列或多列的排序键,sort_values(by=[‘a’,‘b’])

rank()方法也可实现排序

如有错误,请多指教,笔记会持续更新的~
谢谢大家!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: