您的位置：首页 > 编程语言 > Python开发

python数据分析系列教程（3） —— Pandas模块1

2018-03-26 20:50 597 查看

目录一.Pandas简介
二.主要数据结构
1.Series
2.DataFrame
三.Series基本操作

一.pandas简介

（1）pandas是基于numpy的一种为了解决数据分析任务而创建的模块，使用pandas可以让数据分析工作更便捷，他与numpy的区别是：numpy是数值计算的扩展包，pandas是专门用来数据处理的。
pandas主要提出了两个重要的数据结构：Series和DataFrame,并在此基础上提供了大量快速便捷进行数据处理的函数和方法，通过使用这些数据结构可以弥补一些numpy的不足，能更加适合进行数据处理。
（2）使用pandas可以更高效的实现以下功能：
*具备能按轴自动或显式数据对齐功能的数据结构。
*集成和处理时间序列的功能。
*适合对金融数据处理，可以通过对元数据（轴编号）进行数据运算和约简（比如按轴求和）来实现对结构内数据的计算。
*灵活进行数据清洗和残缺数据处理。
*合并和实现常见数据库中的关系型运算。

二.主要数据结构

pandas中主要提出了两个数据结构：Series和DataFrame，这两种数据结构与numpy中array最大的区别是可以像字典那样指定标记，所以更加适合存储和处理表格类型(特征和特征值)的数据。
（1）Series是有一组数据和相应标签组成的数据组合，类似于字典，其组合是索引在前面、值在右边，如图的两种形式。

创建Series的代码为：from pandas import Series,DataFrame
import pandas as pd
#简单无标记的Series
obj=Series([4,7,-5,3]) #创建一组数据，未指定标记时，默认是序号有小到大排的
print(obj)
'''
0 4
1 7
2 -5
3 3
dtype: int64
'''
#有标记的Series
obj=Series(data=[4,2,9,-32],index=['b','a','w','r'])#创建一组数据，并指定标记
print(obj)
''' 输出：
b 4
a 2
w 9
r -32
dtype: int64
'''
#使用字典创建Series
sdata={'or':2,'ge':3,'gd':54,'js':65}
obj2=Series(sdata)
print(obj2)
''' 输出：
gd 54
ge 3
js 65
or 2
dtype: int64
'''
（2）DataFrame是表格型的二维的数据结构，其内部每列可以使不同的值类型（数值、字符串、布尔型），列之间类型可以不同，但每一列内部需要类型相同，类似下面的结构，圈定的每一列都是不同的数据类型。

与Series相比，DataFrame既有行索引也有列索引，他可以被看为由Series组成的字典（Series是单标识的），其内部是由一个或多个二维块组成的，如图是通过列和横向索引来确定表格中的一个位置（双标识）。

在创建DataFrame是，可以接受的创建方式为：

创建DataFrame代码：#创建方法一，直接使用字典的方式创建DataFrame，直接创建，会自动添加索引来有序排序
data={"A":[1,2,3,4],"B":[5,6,7,8],"C":[1,1,1,1]}
frame=pd.DataFrame(data)
print(df1)
''' 输出
A B C
0 1 5 1
1 2 6 1
2 3 7 1
3
98ee
4 8 1
'''

#创建方式二，指定双索引的创建方式
frame1=pd.DataFrame(data,columns=['A','B','C'],index=['one','get','buy','you']) #指定column和index,但是标识要跟数据尺寸匹配
print(frame1)
'''输出
A B C
one 1 5 1
get 2 6 1
buy 3 7 1
you 4 8 1
'''

三.Series基本操作

创建Series的代码为：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航