python数据分析(数据检索、加工与存储)
2017-11-23 14:25
435 查看
1、利用numpy和pandas对CSV文件进行写操作。
a):numpy的savetxt()函数是与loadtxt()相对应的一个函数,它能以诸如CSV之类的区隔型文件格式保存数组。代码:
import numpy as np
np.random.seed(42)
a=np.random.randn(3,4) #生成3行4列0到1之间的随机数组
a[2][2]=np.nan
print a
np.savetxt('np.csv',a,fmt='%.2f',delimiter=',',header="#1,#2,#3,#4") #保存到文件CSV格式运行结果:
[[ 0.49671415 -0.1382643 0.64768854 1.52302986]
[-0.23415337 -0.23413696 1.57921282 0.76743473]
[-0.46947439 0.54256004 nan -0.46572975]]
b):利用随机数组来创建pandas DataFrame。利用pandas的to_csv()方法可以为CSV文件生成DataFrame。
代码:
df=pd.DataFrame(a)
print df
df.to_csv('pd.csv',float_format='%.2f',na_rep="NAN!")运行结果:
0 1 2 3
0 0.496714 -0.138264 0.647689 1.523030
1 -0.234153 -0.234137 1.579213 0.767435
2 -0.469474 0.542560 NaN -0.465730
2、numpy.npy与pandas DataFrame
a):大部分情况下,用CSV格式存储文件时一个不错的主意,因为大部分程序设计语言都能处理这种格式,所以交流起来非常方便。然而,这种格式有一个缺陷,就是存储效率不是很高,原因是CSV及其他纯文本格式中含大量空白符。代码:
import numpy as np
import pandas as dp
from tempfile import NamedTemporaryFile #临时文件,不能被其他程序使用,用完销毁
from os.path import getsize
import pickle
np.random.seed(42)
a=np.random.randn(365,4)
temf=NamedTemporaryFile()
np.savetxt(temf,a,delimiter=',')
print "Size CSV file:",getsize(temf.name)
temf=NamedTemporaryFile()
np.save(temf,a)
temf.seek(0)
loaded=np.load(temf)
print "Shape:",loaded.shape
print "Size .npy file",getsize(temf.name)运行结果:
Size CSV file: 36864
Shape: (365L, 4L)
Size .npy file 11760
相关文章推荐
- 利用python进行数据分析之数据加载存储与文件格式
- python数据分析之:数据加载,存储与文件格式
- 利用python进行数据分析-数据加载、存储与文件格式2
- 数据加载、存储与文件格式 利用Python进行数据分析 第6章
- 利用python进入数据分析之数据加载、存储、文件格式
- Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识
- Python 数据分析(一) 本实验将学习 pandas 基础,数据加载、存储与文件格式,数据规整化,绘图和可视化的知识
- 利用python进行数据分析-数据加载、存储与文件格式1
- 利用Python进行数据分析--数据加载、存储与文件格式
- python-MySQLdb数据超过200万检索过慢的原因分析
- 利用python进行数据分析(四):数据加载、存储
- python小项目一:NBA比赛数据分析
- Python数据分析与机器学习-泰坦尼克获救预测
- 利用python进行数据分析D1——ch02引言
- python mysqldb 读取数据存储到excel中
- python数据分析复盘——数据分析相关库之Numpy
- Python和R数据挖掘分析技术高级公开课在上海举行
- 使用Python对微信好友进行数据分析
- Python数据加载、存储与文件格式
- Python数据分析库pandas基本操作方法