读书笔记--python数据可视化--001_读取CSV文件数据
2015-12-26 15:06
886 查看
#-*- coding: UTF-8 -*- ''' ################################################# # Author : 余欢 # Date : Dec 26, 2015 2:25:39 PM #company : 南京师范大学--大数据实验室 # description : ################################################# ''' from fileinput import filename from _csv import reader, Dialect ''' 1 打开文件 2 首先读取文件头行 3 读取文件剩余的行 4 当错误发生时,抛出异常 ''' #读取所有的内容后,打印头行和剩余的行的内容 import csv filename = "/root/Desktop/data-visualization/data_visualization_Code/3367OS_02_Code/ch02-data.csv" # filename = "/root/Desktop/data-visualization/data_visualization_Code/3367OS_02_Code/ch02-data.tab" data = [] try: with open(filename) as f: reader = csv.reader(f) #读取CSV文件 # reader = csv.reader(f, dialect = csv.excel_tab) #读取制表符分隔的文件 header = reader.next() data = [row for row in reader] except csv.Error as e: print "reader CSV Error in line %s: %s", (reader.line_num, e) sys.exit(-1) if header: print header print "========================" for datarow in data: print datarow
NumPy文件存取
如果想处理大数据的文件,明智的做法是使用NumPy的loadtxt()方法,这个方法可以很好的处理大数据量的CSV文件。这里有一篇文章:NumPy文件存取写的非常详细,为便于阅读,一起抄录在这里:
NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。
使用数组对象的tofile()方法可以方便地将数组中的数据以二进制格式写进文件。tofile()输出的数据不保存数组形状和元素类型等信息。因此用fromfile()函数读回数据时需要用户指定元素类型,并对数组的形状进行适当的修改:
>>> a = np.arange(0,12) >>> a.shape = 3,4 >>> a array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]]) >>> a.tofile("a.bin") >>> b = np.fromfile("a.bin", dtype=np.float) # 按照float类型读入数据 >>> b # 读入的数据是错误的 array([ 2.12199579e-314, 6.36598737e-314, 1.06099790e-313, 1.48539705e-313, 1.90979621e-313, 2.33419537e-313]) >>> a.dtype # 查看a的dtype dtype('int32') >>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32类型读入数据 >>> b # 数据是一维的 array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) >>> b.shape = 3, 4 # 按照a的shape修改b的shape >>> b # 这次终于正确了 array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])
从上面的例子可以看出,在读入数据时需要正确设置dtype参数,并修改数组的shape属性才能得到和原始数据一致的结果。无论数据的排列顺序是C语言格式还是Fortran语言格式,tofile()都统一使用C语言格式输出。此外如果指定了sep参数,则fromfile()和tofile()将以文本格式对数组进行输入输出。sep参数指定的是文本数据中数值的分隔符。
load()和save()用NumPy专用的二进制格式保存数据,它们会自动处理元素类型和形状等信息:
>>> np.save("a.npy", a) >>> c = np.load( "a.npy" ) >>> c array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])
如果想将多个数组保存到一个文件中,可以使用savez()。savez()的第一个参数是文件名,其后的参数都是需要保存的数组,也可以使用关键字参数为数组起名,非关键字参数传递的数组会自动起名为arr_0、arr_1、…。savez()输出的是一个扩展名为npz的压缩文件,其中每个文件都是一个save()保存的npy文件,文件名和数组名相同。load()自动识别npz文件,并且返回一个类似于字典的对象,可以通过数组名作为键获取数组的内容:
>>> a = np.array([[1,2,3],[4,5,6]]) >>> b = np.arange(0, 1.0, 0.1) >>> c = np.sin(b) >>> np.savez("result.npz", a, b, sin_array = c) >>> r = np.load("result.npz") >>> r["arr_0"] # 数组a array([[1, 2, 3], [4, 5, 6]]) >>> r["arr_1"] # 数组b array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]) >>> r["sin_array"] # 数组c array([ 0. , 0.09983342, 0.19866933, 0.29552021, 0.38941834, 0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])
用解压软件打开“result.npz”文件,会发现其中有三个文件:“arr_0.npy”、“arr_1.npy”和“sin_array.npy”,其中分别保存着数组a、b、c的内容。
→\tosave()和savez()输出的二进制文件有特殊的格式,较难用其它语言编写的程序读入。
savetxt()和loadtxt()可以读写保存1维和2维数组的文本文件。例如可以用它们读写CSV格式的文本文件:
>>> a = np.arange(0,12,0.5).reshape(4,-1) >>> np.savetxt("a.txt", a) # 缺省按照'%.18e'格式保存数值,以空格分隔 >>> np.loadtxt("a.txt") array([[ 0. , 0.5, 1. , 1.5, 2. , 2.5], [ 3. , 3.5, 4. , 4.5, 5. , 5.5], [ 6. , 6.5, 7. , 7.5, 8. , 8.5], [ 9. , 9.5, 10. , 10.5, 11. , 11.5]]) >>> np.savetxt("a.txt", a, fmt="%d", delimiter=",") #改为保存为整数,以逗号分隔 >>> np.loadtxt("a.txt",delimiter=",") # 读入的时候也需要指定逗号分隔 array([[ 0., 0., 1., 1., 2., 2.], [ 3., 3., 4., 4., 5., 5.], [ 6., 6., 7., 7., 8., 8.], [ 9., 9., 10., 10., 11., 11.]])
有的CSV文件中除了保存数值之外,还保存一些说明文字,例如第一行和第一列通常为列名和行名。如果需要忽略CSV文件的第一行和第一列,可以先将文件读为字符串数组,然后取出需要的部分再转换为数值数组。例如对于下面的CSV数据文件:
姓名,年龄,体重,身高 张三,30,75,165 李四,45,60,170 王五,15,30,120
# -*- coding: utf-8 -*- """ 使用NumPy快速读取CSV文件。 """ import numpy as np # 采用字符串数组读取文件 tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",") # 将部分数组的值进行转换 data = tmp[1:,1:].astype(np.float) print data # 定义结构数组元素的类型 persontype = np.dtype({ 'names':['name', 'age', 'weight', 'height'], 'formats':['S32','i', 'f', 'f']}) f = file("test.csv") f.readline() # 跳过第一行 data = np.loadtxt(f, dtype=persontype, delimiter=",") f.close() print data
>>> tmp = np.loadtxt("test.csv", dtype=np.str, delimiter=",") >>> data = tmp[1:,1:].astype(np.float) >>> data array([[ 30., 75., 165.], [ 45., 60., 170.], [ 15., 30., 120.]])
此外,使用结构数组也能读入这样的文件,并且可以使用不同的元素类型保存每个列的值,下面先定义结构数组的类型:
>>> persontype = np.dtype({ ... 'names':['name', 'age', 'weight', 'height'], ... 'formats':['S32','i', 'f', 'f']})
由于文件中的第一行不是数据,因此需要先打开数据文件,读取完第一行之后,再把文件对象传递给loadtxt():
>>> f = file("test.csv") >>> f.readline() >>> data = np.loadtxt(f, delimiter=",", dtype=persontype) >>> print data [('\xe5\xbc\xa0\xe4\xb8\x89', 30, 75.0, 165.0) ('\xe6\x9d\x8e\xe5\x9b\x9b', 45, 60.0, 170.0) ('\xe7\x8e\x8b\xe4\xba\x94', 15, 30.0, 120.0)]
实际上,前面介绍的所有读写文件的函数都可以直接使用已经打开的文件对象,如果使用文件对象,可以将多个数组储存到一个npy文件中:
>>> a = np.arange(8) >>> b = np.add.accumulate(a) >>> c = a + b >>> f = file("result.npy", "wb") >>> np.save(f, a) # 顺序将a,b,c保存进文件对象f >>> np.save(f, b) >>> np.save(f, c) >>> f.close() >>> f = file("result.npy", "rb") >>> np.load(f) # 顺序从文件对象f中读取内容 array([0, 1, 2, 3, 4, 5, 6, 7]) >>> np.load(f) array([ 0, 1, 3, 6, 10, 15, 21, 28]) >>> np.load(f) array([ 0, 2, 5, 9, 14, 20, 27, 35])
注:
[1] 这篇文章:理解Python中的with…as…语法详细介绍了with…as…语法
[2]在《python数据可视化编程⋅\cdot第一版》这本书的17页上,代码有误
相关文章推荐
- python json
- Python:字符串、列表和元组
- python中实现多线程的几种方式
- python-web加载性能测试(初级)
- python threading 模块来实现多线程
- writing idiomatic python 读书笔记(8)
- python可视化--matplotlib
- 用Python和OpenCV实现RootSIFT--Implementing RootSIFT in Python and OpenCV
- writing idiomatic python 读书笔记(7)
- writing idiomatic python 读书笔记(6)
- writing idiomatic python 读书笔记(5)
- python的out of memory问题
- python 程序构架
- 用Python脚本做一些网页游戏中力所能及的自动化任务
- 使用Python实现Hadoop MapReduce程序
- [模拟登陆三剑客]3. 使用Python实现模拟登陆
- python编程
- Awesome Python
- python抓取豆瓣电影
- 用Python实现K-近邻算法