您的位置：首页 > 其它

pandas学习笔记-Series

2017-05-02 19:35 483 查看

Series是一种类似于一维数组的对象，它由一组数据（各种numpy数据类型）以及一组与之相关的数据标签（即索引）组成，仅由一组数据即可产生最简单的Series：

import pandas as pd
import numpy as np
s= pd.Series([1,2,3,4,5])
print s

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。可以通过Series的values和index属性获取其数组表示形式和索引对象：

print s.values

输出结果
[1 2 3 4 5]

print s.index

输出结果
RangeIndex(start=0, stop=5, step=1)

对创建的Series加索引

s = pd.Series([4,7,-5,3],index=['d','b','a','c'])
print s

结果
d    4
b    7
a   -5
c    3

print s.index

结果
Index([u'd', u'b', u'a', u'c'], dtype='object')

与普通的numpy数组相比，你可以通过索引的方式选取Series中的单个或一组值：

print s['a']

结果
-5

s['d'] = 6
print s[['c','a','d']]

结果
c    3
a   -5
d    6

数组运算都会保留索引和值之间的链接：

print s[s>0]

输出结果
d    6
b    7
c    3

print s*2

输出结果
d    12
b    14
a   -10
c     6

print np.exp(s)

输出结果
d     403.428793
b    1096.633158
a       0.006738
c      20.085537

可以将Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中：

print 'b' in s

结果
True

print 'e' in s

结果
False

如果数据被存放在一个python字典中，也可以直接通过这个字典来创建Series：

sdata = {'Ohio':35000,'Texas':71000,'Oregon':16000,'Utah':5000}
s = pd.Series(sdata)
print s

结果
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000

如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。

states = ['California','Ohio','Oregon','Texas']
s = pd.Series(sdata,index=states)
print s

结果
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0

在这个例子中，sdata中跟states索引相匹配的那3个值会被找出来并放到相应的位置上，但由于“California”所对应的sdata值找不到，所以其结果就为NaN（即“非数字”（not a number），在pandas中，它用于表示确实或NA值）。

pandas的isnull和notnull函数可以用于检测缺失数据：

print pd.isnull(s)

输出结果
California     True
Ohio          False
Oregon        False
Texas         False

print pd.notnull(s)

输出结果
California    False
Ohio           True
Oregon         True
Texas          True

Series也有类似的实例方法：

print s.isnull()

输出结果
California     True
Ohio          False
Oregon        False
Texas         False

对于许多应用而言，Series最重要的一个功能是：它在算数运算中会自动对齐不同索引的数据。

print obj1
print obj2

结果
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

print obj1 + obj2

输出结果
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关系非常密切：

obj2.name = 'population'
obj2.index.name = 'state'
print obj2

结果
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series的索引可以通过赋值的方式就地修改：

obj2.index = ['Bob','Steve','Jeff','Ryan']
print obj2

输出结果
Bob          NaN
Steve    35000.0
Jeff     16000.0
Ryan     71000.0
Name: population, dtype: float64

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航