Pandas学习笔记(一)
2016-01-22 11:43
169 查看
最近在做Kaggle的练习赛,发现大家都在用pandas这个python数据分析的库来处理数据和提取特征。调研了一下Pandas,发现这个库真得非常方便。如果使用这个库来处理原始数据和提取特征,那么会大大提升工作效率。接下来准备花些时间学习一下这个库的使用。
Lesson1 参考资料: http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/01%20-%20Lesson.ipynb
读取CSV文件:
df的全称是DataFrame,可以将一个数据表格视为一个由m行n列组成的数据帧,如下所示:
df就标识着上面的这个表格。
访问表格内容:
使用df.Names或者df['Names']都可以将Names这一列取出来得到一个新的表格。而df[1:3]则可以取出表格中的1,2两行。
查看最大值等信息:
df提供了max等方法,可以得到某一列数据的一些统计值
选取满足某些条件的行:
[df['Births'] == df['Births'].max()] ,可以得到birth为最大值的行组成的列表
画折线图来观察数据:
访问多行多列:
利用loc方法和ix方法都可以读取多行
Pandans Groupby的具体说明:
http://pandas.pydata.org/pandas-docs/stable/groupby.html?highlight=transform
Lesson1 参考资料: http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/01%20-%20Lesson.ipynb
读取CSV文件:
Location = r'C:\Users\david\notebooks\update\births1880.csv' df = pd.read_csv(Location)
df的全称是DataFrame,可以将一个数据表格视为一个由m行n列组成的数据帧,如下所示:
Names | Births | |
---|---|---|
0 | Bob | 968 |
1 | Jessica | 155 |
2 | Mary | 77 |
3 | John | 578 |
4 | Mel | 973 |
访问表格内容:
使用df.Names或者df['Names']都可以将Names这一列取出来得到一个新的表格。而df[1:3]则可以取出表格中的1,2两行。
查看最大值等信息:
df['Births'].max()
df提供了max等方法,可以得到某一列数据的一些统计值
选取满足某些条件的行:
[df['Births'] == df['Births'].max()] ,可以得到birth为最大值的行组成的列表
画折线图来观察数据:
df['Births'].plot()
访问多行多列:
# df.ix[rows,columns] df.ix[0:3,'Names']
df.loc['a']
利用loc方法和ix方法都可以读取多行
Pandans Groupby的具体说明:
http://pandas.pydata.org/pandas-docs/stable/groupby.html?highlight=transform
相关文章推荐
- 一般引起Cookie丢失的原因
- 图解电脑上Firefox浏览器无法打开的解决办法
- 文字和自定义图片居中的RadioButton
- Masonry注意
- MySQL性能优化的最佳经验,随时补充
- 递归----Fast Power Show result
- Android ViewPager多页面滑动切换以及动画效果
- iOS开发new与alloc/init的区别
- 数据结构与算法——二叉树的前序遍历,中序遍历,后序遍历
- JTA 事务处理
- 个人总结的一些C/C++编码规范
- 如何提高MySQL Limit查询的性能
- iOS开发new与alloc/init的区别
- mysql主从配置
- 【电脑硬件问题】视频接口和显示器偏色
- mysql 查询结果导出文件并导入文件到数据库
- zookeeper单机与分布式模式
- vs2012 文件系统 发布失败,目标文件没有内容
- Java并发编程:生产者-消费者模式
- 使用安卓手机作摄像头,监控外物入侵