您的位置：首页 > 编程语言 > Python开发

python读txt文件的编码问题

2016-04-14 08:38 375 查看

Pytho代码：

# -*- coding: UTF-8 -*-
import codecs
#f1 = codecs.open("D:\\python_code\\bayes\\data\\label.txt", 'r', 'utf-8')
f1 = open("D:\\python_code\\bayes\\data\\label.txt")

list1 = ['味道', '物流', '外观', '包装', '性价比',  '品质', '功效', '价格', '赠品', '服务']
list2 = []
for line in f1:
line = line.strip()
list2.append(line)

print list1
print list2

for l1 in list1:
#l1 = l1.decode("utf-8")
print l1,
if l1 in list2:
print True
else:
print False

label.txt:
味道
物流
外观
包装
性价比
品质
功效
价格
赠品
服务

输出格式：

list1: ['\xe5\x91\xb3\xe9\x81\x93', '\xe7\x89\xa9\xe6\xb5\x81', '\xe5\xa4\x96\xe8\xa7\x82', '\xe5\x8c\x85\xe8\xa3\x85' , .......]
list2: ['\xef\xbb\xbf\xe5\x91\xb3\xe9\x81\x93', '\xe7\x89\xa9\xe6\xb5\x81', '\xe5\xa4\x96\xe8\xa7\x82', '\xe5\x8c\x85\xe8\xa3\x85' ,..........]

对比两个list，list2中的第一个元素的Unicode编码多了'\xef\xbb\xbf'三个字节的字符串，这样的话我们在使用带这种标记的数据是可能会出现错误，
出现这种错误的原因是因为在.txt的文件时，txt文件会在该文件的第一行加入这三个字节作为开始的标记符，这种标记叫BOM，当然我们在保存的时候
可以把文件保存为无BOM的文件格式，这种错误通常都很隐蔽，需要注意！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航