Python3 解决读取中文文件txt编码的问题
2019-12-21 07:08
6067 查看
问题描述
尝试用Python写一个Wordcloud的时候,出现了编码问题。
照着网上某些博客的说法添添改改后,结果是变成了“UnicodeDecodeError: ‘utf-8' codec can't decode byte…”这个错误。
捣鼓了一天啊,TXT(此处为本人现下内心表情)。最后,干脆写个最简单的文件读取,竟然还是报错。于是就考虑是不是txt的编码问题,因为读取的txt文件是在Mac上面新建的纯文本文件,一时没找到在哪里查看编码,最后拷贝到Windows系统上,查看了txt文件的编码,竟然是ASCII,不是我最爱的utf-8,Mac你辜负了我对你的一番信任啊!ε(┬┬﹏┬┬)3
解决方法
将txt文件的编码格式改为utf-8即可
此外,在打开文件的时候,要加上第三个参数encoding=‘utf8'(没有横杠)。
with open('./test3.txt','r',encoding='utf8') as fin: for line in fin.readlines(): line = line.strip('\n')
下面附上第一次成功显示的词云的源码(参考网上他人的,注释很详细)
import jieba import jieba.analyse from matplotlib import pyplot as plt from scipy.misc import imread from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator # 1.读取数据 with open("./test.txt","r",encoding="utf8") as f: text = f.read() # 2.基于 TextRank 算法的关键词抽取,top50 keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) file = ",".join(keywords) # 指定中文字体,不然中文显示框框 font = r'./HYQiHei-25J.ttf' print(file) # 指定背景图,随意 image = imread('cake.jpg') wc = WordCloud( font_path=font, background_color='white',#背景色 mask=image,#背景图 stopwords=STOPWORDS,#设置停用词 max_words=100,#设置最大文字数 max_font_size=100,#设置最大字体 width=800, height=1000, ) #生成词云 image_colors = ImageColorGenerator(image) wc.generate(file) # 使用matplotlib,显示词云图 plt.imshow(wc) #显示词云图 plt.axis('off') #关闭坐标轴 plt.show() # 保存图片 wc.to_file('news.png')
以上这篇Python3 解决读取中文文件txt编码的问题就是小编分享给大家的全部内容了,希望能给大家一个参考
您可能感兴趣的文章:
相关文章推荐
- Python处理unicode编码的txt文件(Python中文处理)——解决to_excel()和to_csv()导出文件内容为空的问题
- 我用python将结果写入txt文件出现的编码问题及其解决方法
- python-读取目录中文件以及解决未知编码的中文乱码
- 解决Python中pandas读取*.csv文件出现编码问题
- Python | 多种编码文件(中文)乱码问题解决 chardet模块
- Andoird - 解决读取txt文件中文乱码问题
- FileReader读取中文txt文件编码丢失问题
- [Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
- 解决python读取中文文件乱码问题
- Python 读取文件中unicode编码转成中文显示问题
- python读取\t\n的文件转换成html表格发送邮件(解决中文乱码问题)
- 简单解决Python文件中文编码问题
- FileReader读取中文txt文件编码丢失问题(乱码)(转)
- Python文件读取编码错误问题解决之(PyCharm开发工具默认设置的坑。。。)
- sublime python3中读取和写入文件时如何解决编码问题
- FileReader读取中文txt文件编码丢失问题(乱码)
- [Python] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
- 不能使用文本编码“简体中文(Mac OS)”来打开文件“**.txt”问题的解决(转)
- python2 读取文件TXT编码问题
- 简单解决Python文件中文编码问题