您的位置：首页 > 其它

pandas入门笔记 Series和DataFrame的基础学习

2020-07-07 16:39 253 查看

pandas入门笔记

学习《利用Python进行数据分析》第2版，一些笔记将在后续更新

内容部分引用于《利用Python进行数据分析》第2版（Wes McKinney著，徐敬一译），仅供大家一起学习交流

pandas所包含的数据结构和数据处理工具的设计使得在python中进行数据清洗和分析非常方便。

pandas用来处理表格型或异质型数据
而numpy更适合处理同质型的数值类数组数据

导入pandas

import pandas as pd

导入两个常用的工具数据结构 Series 和 DataFrame

from pandas import Series, DataFrame

一维的数组型对象，包含了以个值序列，数据标签（索引index）

示例

obj=pd.Series([1,0,2,4])

0 1
1 0
2 2
3 4
dtype: int64

索引默认从0开始，创建索引序列用index=[ ]
可以通过values 属性和 index 属性分别获得Series对象的值和序列
obj.values // obj.index

如果已有字典dict，可以使用字典生成一个Series

obj=pd.Series(dict)

二维，矩阵的数据表，包含已排序的列集合，每一列可以是不同的值类型。
有行索引，列索引

data={'name':['Anna','Bob','Crystal'],
'gender':['female','male','female'],
'year':[1990,1999,2000]}
pd.DataFrame(data)

指定排序，columns=[ ]

获取某一行可以通过 frame.loc[ ] 来选取

修改列的引用，frame['新列‘]=?

索引对象不可变

重建索引 reindex
method=‘ffill’ 将值向前填充

apply 方法将函数应用到一行或一列

applymap 格式化字符串

format=lambda x:'%.2f' %x
frame.applymap(format)

排序
sort_index
默认升序

降序ascending=False

frame.sort_index(axis=1, ascengding=False)

若要根据series的值进行排列，使用sort_values方法，缺失值NaN默认排在最后

对DataFrame排序时，使用一列或多列的排序键，sort_values(by=[‘a’,‘b’])

rank()方法也可实现排序

如有错误，请多指教，笔记会持续更新的~
谢谢大家！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航