您的位置：首页 > 其它

Pandas之DataFrame操作

2015-09-11 11:22 471 查看

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。 1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。
说了一大堆它的好处，要实际感触还得动手码代码。首要的任务就是创建一个DataFrame，它有几种创建方式：

列表，序列(pandas.Series), numpy.ndarray的字典

二维numpy.ndarray

别的DataFrame

结构化的记录(structured arrays)

其中，我最喜欢的是通过二维ndarray创建DataFrame，因为代码敲得最少：

当然你还可以参考我的这篇文章从mysql数据库或者csv文件中载入数据到dataframe。

dataframe中index用来标识行，column标识列，shape表示维度。

通过describe方法，我们可以对df中的数据有个大概的了解：

2. 数据select, del, update。

按照列名select:

按照行数select:

按照索引select:

按照行数和列数select:

删除某列：

删除某行：

3.运算。

基本运算：

map运算，和python中的map有些类似：

apply运算：

4. Group by 操作。

pandas中的group by 操作是我的最爱，不用把数据导入excel或者mysql就可以进行灵活的group by 操作，简化了分析过程。

5. 导出到csv文件

dataframe可以使用to_csv方法方便地导出到csv文件中，如果数据中含有中文，一般encoding指定为”utf-8″,否则导出时程序会因为不能识别相应的字符串而抛出异常，index指定为False表示不用导出dataframe的index数据。

本文出自杂七杂八，转载时请注明出处及相应链接。

本文永久链接: http://www.dcharm.com/?p=13

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航