python读取中文txt文本的方法
2018-04-12 15:57
741 查看
对于python2.7
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。
先用一些编辑器(如editplus )看一下你的txt文件保存的是utf-8,还是gb2312或其他的。当你读行时可以这样
line = (file1.readline()).decode('utf-8').encode('gb2312')或 line = (file1.readline()).decode('gb2312').encode('utf-8')
注意:txt使用utf8编码的时候会默认在文件开头插入三个不可见字符。这个是windows用来判断txt编码是否为utf8的。所以如果你直接使用decode('utf-8')的话是得不到正确结果的。
必须先判断前三个字符是否是windows插入的那三个。这个python已经定义了一个常量了,可以直接和这个常量比较,如果一样就删除前三个字符然后再decode。
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")
延伸:
因为decode的函数原型是decode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
对于Python3
python3下比较简单,打开的时候指定encoding参数即可:open("txt.txt", encoding="gbk").read()。
以上这篇python读取中文txt文本的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。
您可能感兴趣的文章:
相关文章推荐
- j2me里面读取txt文本的方法(支持中文)
- python 读取txt中文文本
- Python之读取TXT文件的方法小结
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- java 逐行读取txt文本如何解决中文乱码
- asp.net 按行读取包含中文的文本(txt)文件并取得行数
- PHP读取txt文本文件并分页显示的方法
- python菜鸟笔记--python读取和写入txt文件的方法
- FSO 读取/写txt文本乱码解决方法
- python3将csv文件中的两列数据读取出来,并且按行写入txt文本之中
- c# 读取txt文件中文乱码解决方法
- Python3基础 file list+for 读取txt文本 并 一行一行的输出(低效率)
- C# 读取 TXT文件的时候中文乱码解决方法
- vb 读取txt文本的行数方法比较
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- asp.net 按行读取包含中文的文本(txt)文件并取得行数
- Python 读取TXT文本数据并存为 array
- C#中StreamReader读取中文文本出现乱码的解决方法
- Qt5 读取txt文本内的中文乱码
- Python实现的json文件读取及中文乱码显示问题解决方法