python3-cookbook第5章摘要-文件与IO
2018-03-23 16:44
274 查看
1.如何在迭代一个序列的同时跟踪正在被处理的元素索引。
内置的 enumerate() 函数可以很好的解决这个问题:>>> my_list = ['a', 'b', 'c'] >>> for idx, val in enumerate(my_list): ... print(idx, val) ... 0 a 1 b 2 c
为了按传统行号输出(行号从1开始),你可以传递一个开始参数:
>>> my_list = ['a', 'b', 'c'] >>> for idx, val in enumerate(my_list, 1): ... print(idx, val) ... 1 a 2 b 3 c
这种情况在你遍历文件时想在错误消息中使用行号定位时候非常有用:
def parse_data(filename): with open(filename, 'rt') as f: for lineno, line in enumerate(f, 1): fields = line.split() try: count = int(fields[1]) ... except ValueError as e: print('Line {}: Parse error: {}'.format(lineno, e))
2.如何同时迭代多个序列,每次分别从一个序列中取一个元素。
为了同时迭代多个序列,使用 zip() 函数。比如:>>> xpts = [1, 5, 4, 2, 10, 7] >>> ypts = [101, 78, 37, 15, 62, 99] >>> for x, y in zip(xpts, ypts): ... print(x,y) ... 1 101 5 78 4 37 2 15 10 62 7 99
zip(a, b) 会生成一个可返回元组 (x, y) 的迭代器,其中x来自a,y来自b。 一旦其中某个序列到底结尾,迭代宣告结束。 因此迭代长度跟参数中最短序列长度一致。
如果这个不是你想要的效果,那么还可以使用 itertools.zip_longest() 函数来代替
>>> from itertools import zip_longest >>> for i in zip_longest(a,b): ... print(i) ... (1, 'w') (2, 'x') (3, 'y') (None, 'z') >>> for i in zip_longest(a, b, fillvalue=0): ... print(i) ... (1, 'w') (2, 'x') (3, 'y') (0, 'z') >>>
虽然不常见,但是 zip() 可以接受多于两个的序列的参数。 这时候所生成的结果元组中元素个数跟输入序列个数一样。
3.如何将一系列排序序列合并后得到一个排序序列并在上面迭代遍历。
heapq.merge() 函数可以帮你解决这个问题。比如:>>> import heapq >>> a = [1, 4, 7, 10] >>> b = [2, 5, 6, 11] >>> for c in heapq.merge(a, b): ... print(c) ... 1 2 4 5 6 7 10 11
heapq.merge 可迭代特性意味着它不会立马读取所有序列。 这就意味着你可以在非常长的序列中使用它,而不会有太大的开销。 比如,下面是一个例子来演示如何合并两个排序文件:
with open('sorted_file_1', 'rt') as file1, \ open('sorted_file_2', 'rt') as file2, \ open('merged_file', 'wt') as outf: for line in heapq.merge(file1, file2): outf.write(line)
有一点要强调的是 heapq.merge() 需要所有输入序列必须是排过序的。 特别的,它并不会预先读取所有数据到堆栈中或者预先排序,也不会对输入做任何的排序检测。 它仅仅是检查所有序列的开始部分并返回最小的那个,这个过程一直会持续直到所有输入序列中的元素都被遍历完。
4.使用 print() 函数输出数据,改变默认的分隔符或者行尾符。
可以使用在 print() 函数中使用 sep 和 end 关键字参数,以你想要的方式输出。比如:>>> print('ACME', 50, 91.5) ACME 50 91.5 >>> print('ACME', 50, 91.5, sep=',') ACME,50,91.5 >>> print('ACME', 50, 91.5, sep=',', end='!!\n') ACME,50,91.5!! >>>
使用 end 参数也可以在输出中禁止换行。比如:
>>> for i in range(5): ... print(i) ... 0 1 2 3 4 >>> for i in range(5): ... print(i, end=' ') ... 0 1 2 3 4 >>>
5. 一个文件中写入数据,但是前提必须是这个文件在文件系统上不存在。 也就是不允许覆盖已存在的文件内容。
可以在 open() 函数中使用 x 模式来代替 w 模式的方法来解决这个问题。比如:>>> with open('somefile', 'wt') as f: ... f.write('Hello\n') ... >>> with open('somefile', 'xt') as f: ... f.write('Hello\n') ... Traceback (most recent call last): File "<stdin>", line 1, in <module> FileExistsError: [Errno 17] File exists: 'somefile' >>>
如果文件是二进制的,使用 xb 来代替 xt
6.如何读写一个gzip或bz2格式的压缩文件。
import gzip with gzip.open('somefile.gz', 'rt') as f: text = f.read() # bz2 compression import bz2 with bz2.open('somefile.bz2', 'rt') as f: text = f.read()
类似的,为了写入压缩数据,可以这样做:
# gzip compression import gzip with gzip.open('somefile.gz', 'wt') as f: f.write(text) # bz2 compression import bz2 with bz2.open('somefile.bz2', 'wt') as f: f.write(text)
当写入压缩数据时,可以使用 compresslevel 这个可选的关键字参数来指定一个压缩级别。比如:
with gzip.open('somefile.gz', 'wt', compresslevel=5) as f: f.write(text)
7.在一个固定长度记录或者数据块的集合上迭代,而不是在一个文件中一行一行的迭代。
#通过下面这个小技巧使用 iter 和 functools.partial() 函数: from functools import partial RECORD_SIZE = 32 with open('somefile.data', 'rb') as f: records = iter(partial(f.read, RECORD_SIZE), b'') for r in records: ...
8.在程序执行时创建一个临时文件或目录,并希望使用完之后可以自动销毁掉。
http://python3-cookbook.readthedocs.io/zh_CN/latest/c05/p19_make_temporary_files_and_directories.htmltempfile 模块中有很多的函数可以完成这任务。 为了创建一个匿名的临时文件,可以使用 tempfile.TemporaryFile :
from tempfile import TemporaryFile with TemporaryFile('w+t') as f: # Read/write to the file f.write('Hello World\n') f.write('Testing\n') # Seek back to beginning and read the data f.seek(0) data = f.read()
# Temporary file is destroyed 或者,如果你喜欢,你还可以像这样使用临时文件: f = TemporaryFile('w+t') # Use the temporary file ... f.close() # File is destroyed
在大多数Unix系统上,通过 TemporaryFile() 创建的文件都是匿名的,甚至连目录都没有。 如果你想打破这个限制,可以使用 NamedTemporaryFile() 来代替。比如:
from tempfile import NamedTemporaryFile with NamedTemporaryFile('w+t') as f: print('filename is:', f.name) ... # File automatically destroyed
9.将一个Python对象序列化为一个字节流,以便将它保存到一个文件、存储到数据库或者通过网络传输它。
对于序列化最普遍的做法就是使用 pickle 模块。为了将一个对象保存到一个文件中,可以这样做:import pickle data = ... # Some Python object f = open('somefile', 'wb') pickle.dump(data, f)
为了将一个对象转储为一个字符串,可以使用 pickle.dumps() :
s = pickle.dumps(data)
为了从字节流中恢复一个对象,使用 picle.load() 或 pickle.loads() 函数。比如:
# Restore from a file f = open('somefile', 'rb') data = pickle.load(f) # Restore from a string data = pickle.loads(s)
相关文章推荐
- python cookbook第三版学习笔记七:python解析csv,json,xml文件
- Python Cookbook (2) 文件
- http://python3-cookbook.readthedocs.io/zh_CN/latest/c14/p01_testing_output_sent_to_stdout.html
- Web.py Cookbook 简体中文版 - 如何流传输大文件
- Python模块学习 -- StringIO, cStringIO 内存文件
- Recipe 1.8. Checking Whether a String Contains a Set of Characters(Python Cookbook)
- Python Cookbook学习记录 ch1_10_2013/10/23
- python cookbook 3rd
- 根据cookbook, 多线程情况的事件驱动IO
- Python cookbook(字符串与文本)在字符串的开头或结尾处进行文本匹配操作
- python cookbook第三版学习笔记十五:property和描述
- Python cookbook - 读书笔记
- 分享一个python cookbook的在线教程地址
- Python Cookbook学习记录 ch3_5/8_2013/10/30
- python cookbook第三版学习笔记九:函数
- Python cookbook(数据结构与算法)保存最后N个元素的方法
- 函数知识及文件IO操作(python快速入门精华切记03)
- 【python cookbook】 检查字符串中是否包含某自符集合中的字符
- 【python cookbook】python 控制大小写
- Python学习(15)文件/IO