Python处理大文件
2014-04-12 11:30
232 查看
要将一个4G的文本文件切分开
读取文本文件大致有read() 、readline()、readlines()三种
read()会将所有内容读入到一个字符串中
readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理
[python] view
plaincopy
for line in f.readlines(): # 1
process(line)
其实在python2.2之后,文件也是一个对象,甚至可以这样处理
[python] view
plaincopy
for line in f: # 2
process(line)
readline()每次读取一行
所以read()及readlines()效率高,但是需要内存能放的下
而后一种可以处理比较大的文件。
在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……
采用readline()
[python] view
plaincopy
line = f.readline() #3
while line:
process(line)
line = f.readline()
同样只处理不到200M,很怪
最终,
[python] view
plaincopy
BUFSIZE = 1024 #4
lines = f.readlines(BUFSIZE)
while lines:
for line in lines:
process(line)
lines = readlines(BUFSIZE)
全部数据处理完毕
但是将BUFSIZE改为10240,又只是处理了不到200M……
=====================================================================================================
自己新建了一个2G左右的文件,
采用readline()不断循环,可以
采用readlines()指定读取行数循环,可以
采用第1中第2中方法,提示内存不足
这才是正常的嘛
从效率来说
采用第4种要比第3种快一些
---------------------------------------------------
估计源文件有错误,在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……
--------------------------------------------------
读取文本文件大致有read() 、readline()、readlines()三种
read()会将所有内容读入到一个字符串中
readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理
[python] view
plaincopy
for line in f.readlines(): # 1
process(line)
其实在python2.2之后,文件也是一个对象,甚至可以这样处理
[python] view
plaincopy
for line in f: # 2
process(line)
readline()每次读取一行
所以read()及readlines()效率高,但是需要内存能放的下
而后一种可以处理比较大的文件。
在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……
采用readline()
[python] view
plaincopy
line = f.readline() #3
while line:
process(line)
line = f.readline()
同样只处理不到200M,很怪
最终,
[python] view
plaincopy
BUFSIZE = 1024 #4
lines = f.readlines(BUFSIZE)
while lines:
for line in lines:
process(line)
lines = readlines(BUFSIZE)
全部数据处理完毕
但是将BUFSIZE改为10240,又只是处理了不到200M……
=====================================================================================================
自己新建了一个2G左右的文件,
采用readline()不断循环,可以
采用readlines()指定读取行数循环,可以
采用第1中第2中方法,提示内存不足
这才是正常的嘛
从效率来说
采用第4种要比第3种快一些
---------------------------------------------------
估计源文件有错误,在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……
--------------------------------------------------
相关文章推荐
- python学习(五)-Django处理从页面上传的文件
- 使用Python处理声音文件(二):音量降低1/2
- python处理csv文件--基础
- python文件处理练习
- 公交车到站预测1----python处理csv文件
- Python 文件(file)处理 例子
- python2.7: open()文件处理使用介绍
- Python模块之递归处理文件和文件夹
- Python OS模块目录文件处理
- python之文件处理
- Python文件处理——文件的读写和计数
- C# Python 读取txt中的文件,将16进制的数据按照小端方式排列,处理为有符号的数字,并写入text文件;控制台和界面两种方式
- Python中文件I/O高效操作处理的技巧分享
- python fabric 判断远端一个文件是否存在并做处理
- Python文件处理
- python对ini配置文件处理
- python线程池处理文件和Queue
- python对csv文件的处理
- Python处理MLDonkey 下载中文文件乱码问题
- python处理txt文件