您的位置：首页 > 其它

熊猫的基本功能–数据科学家使用的4个主要功能

2020-08-12 15:35 555 查看

Python Pandas因其基本功能而广受欢迎。熊猫库具有许多必不可少的基本功能和功能，使您的日常工作变得更加轻松。强烈建议初学者掌握Pandas的基本功能。

熊猫的基本功能在启动Pandas基本功能之前，您必须学习导入库配套课程请点击这里：

>>>将numpy导入为np
>>>将熊猫作为pd导入

在这里，我们将创建在Pandas中工作的4个主要数据结构。

指数

>>> dataflair_index = pd。date_range （'1/1/2000' ，period = 8 ）

系列

>>> dataflair_s1 = pd。系列（np.random。randn （5 ），指数= [ 'A' ，'B' ，'C' ，'d' ，'E' ] ）

数据框

>>> dataflair_df1 = pd。数据帧（np.random。randn （8 ，3 ），指数= dataflair_index，列= [ 'A' ，'B' ，'C' ] ）

面板

>>> dataflair_wp1 = pd。面板（np.random。randn （2 ，5 ，4 ），项= [ '的Item1' ，'项目2' ] ，major_axis = PD。DATE_RANGE （'1/1/2000' ，时段= 5 ），minor_axis = [ ' A' ，'B' ，'C' ，'D' ] ）

输出-

在熊猫中导入图书馆

在深入研究Pandas基本功能之前，让我们发现Pandas中的文件层次结构

现在我们可以从熊猫的基本功能开始。

1.head（）函数 2.tail（）函数 3.属性 4.灵活的二进制运算要查看一个长序列的开始或结尾，我们可以使用head（）或tail（）函数。

1. head（）函数

让我们创建一个具有1000个随机值的序列

>>> dataflair = pd。系列（np.random。randn （1000 ））
使用head（）函数-

>>> dataflair。头（）

输出-

熊猫头功能

2. tail（）函数

现在，我们使用tail函数并将元素数设置为3：

>>> dataflair。尾巴（3 ）

输出-

是什么使Python Pandas与其他库不同？

3.属性配套课程请点击这里：

属性在熊猫的基本功能中起着重要作用，它可以帮助数据科学家快速分析，清理和准备数据。Pandas对象具有许多属性，使您可以访问元数据。

形状：给出轴尺寸

轴标签：

系列：索引（仅一个轴） DataFrame：索引（行）和列面板：长轴，短轴和项目您可以安全地分配这些属性。

>>> dataflair_df1 [ ：2 ]

输出-

这将打印DataFrame的最后两个值

>>> dataflair_df1.columns = [ x。下（）用于dataflair_df1.columns X ]
>>> dataflair_df1

输出-

使用此函数，我们将大写的列名更改为小写。如果必须获取Pandas数据结构内部的实际数据，则只需使用values属性。

>>> dataflair_s1.values

输出-

输入-

>>> dataflair_df1.values

输出-

熊猫的上到下列名

>>> dataflair_wp1.values

输出-

4.灵活的二进制运算配套课程请点击这里：

在熊猫数据结构之间的二进制操作中，有两个重要的关注点：

低维对象与高维对象之间的广播行为计算时丢失数据我们将学习如何独立处理这两个问题。它们可以同时处理。

4.1广播行为对于广播行为，“ 系列”输入为主要输入。您可以使用axis（）关键字来匹配索引或列。

>>> dataflair_df = pd。数据帧（{ '一' ：PD 系列（。np.random randn （3 ），指数= [ 'A' ，'B' ，'C' ] ），'2' ：PD 系列（。np.random randn （4 ），index = [ 'a' ，'b' ，'c' ，'d' ] ），'3' ：pd 系列（np.random。3 ），index = [ 'b' ，'c' ，'d' ] ）} ）
>>> dataflair_df

输出-

在熊猫中使用Axis关键字

输入-

>>>行= dataflair_df.iloc [ 1 ]
>>>列= dataflair_df [ 'two' ]
>>> dataflair_df。sub （row，axis = 'columns' ）

输出-

熊猫在数据科学中很流行，但在其他领域也有不同的应用。

>>> dataflair_df。子（列，轴= '索引' ）

输出-

熊猫的列明智索引

输入-

>>> dataflair_df。sub （列，轴= 0 ）

输出-

4.1.1多索引DataFrames级别 使用系列，可以对齐多索引DataFrame的级别。

>>> dataflair_dfmi = dataflair_df。复制（）
>>> dataflair_dfmi.index = pd.MultiIndex。from_tuples （[ （1 ，'a' ），（1 ，'b' ），（1 ，'c' ），（2 ，'a' ）] ，名称= [ 'first' ，'second' ] ））
>>> dataflair_dfmi。子（列，轴= 0 ，级别= '秒' ）
输出-

熊猫多索引数据框

在面板中，匹配或广播行为有些困难。因此，将改为使用算术方法，从而为您提供了指定广播轴的选项。

>>> major_mean = dataflair_wp1。均值（axis = 'major' ）
>>> major_mean

输出-

带有主轴的熊猫多索引DataFrame

>>> dataflair_wp1。子（major_mean，axis = 'major' ）

输出-

Series和Index支持divmod（）内置函数。它同时进行地板除法和模运算，并返回相同类型的二元组。它将其返回为左侧。

您知道Python Pandas提供的好处吗？

对于系列

>>> dataflair_s = pd。系列（NP。人气指数（10 ））
>>> dataflair_s

输出-

熊猫中divmod内置函数的示例输入–

>>> div，rem = divmod （dataflair_s，3 ）＃除以3
>>> div
0 0

1 0

2 0

3 1

4 1

5 1

6 2

7 2

8 2

9 3

>>>雷姆

内置功能的熊猫Divmod的结果

对于索引

>>> dataflair_idx = pd。指数（NP。人气指数（10 ））
>>> dataflair_idx

熊猫系列索引

>>> div，rem = divmod （dataflair_idx，3 ）
>>> div
Int64Index（[0,0,0,1,1,1,2,2,2,3]，dtype ='int64'）

>>>雷姆

使用divmod（）在熊猫里玩

我们也可以按元素进行divmod（）。

div，rem = divmod（dataflair_s，[2，2，3，3，4，4，5，5，6，6]）＃第一个元素将被2除，第二个元素被3除，第三个元素被3依此类推

>>> DIV，REM = divmod （dataflair_s，[ 2 ，2 ，3 ，3 ，4 ，4 ，5 ，5 ，6 ，6 ] ）
>>> div

Divmod函数的示例

>>>雷姆

4.2熊猫缺失值 在DataFrame和Series中，算术函数为您提供了一个输入fill_value的选项，当位置中缺少某个值时，该方法基本上替代了一个值。当添加两个DataFrame对象时，可以将NaN视为0。但是，如果两个DataFrame都缺少该值，则结果将为NaN。您仍然可以稍后使用fillna函数将其替换为其他值。

>>> dataflair_df

在熊猫中查找缺失值配套课程请点击这里：

>>> dataflair_df2 = pd。数据帧（{ '一' ：PD 系列（。np.random randn （3 ），指数= [ 'A' ，'B' ，'C' ] ），'2' ：PD 系列（。np.random randn （4 ），index = [ 'a' ，'b' ，'c' ，'d' ] ），'3' ：pd 系列（np.random。3 ），index = [ 'b' ，'c' ，'d' ] ）} ）
>>> dataflair_df2

在熊猫中获取缺失值

>>> dataflair_df + dataflair_df2

熊猫值缺失的示例

输入项

>>> dataflair_df。加（dataflair_df2，fill_value = 0 ）＃做与'+'运算符相同的操作

输入缺失值

摘要总而言之，我们想说基本功能涵盖了许多Pandas，但是这些是主要功能以及一些灵活的比较和布尔归约。配套课程请点击这里：

更多文章和资料|点击下方文字直达 ↓↓↓ 阿里云K8s实战手册 [阿里云CDN排坑指南]CDN ECS运维指南 DevOps实践手册 Hadoop大数据实战手册 Knative云原生应用开发指南 OSS 运维实战手册

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航