python:解决UnicodeDecodeError
2015-04-24 00:00
260 查看
摘要: 解决UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题
【博文转载】
错误信息:
UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence
这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,
这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。
而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。
[解决办法]
#将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,
#当然对于gbk等编码,处理同样问题的方法是类似的
strTest = strTxt.decode('utf-8', 'ignore')
return strTest
[补充]
默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?号取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
【博文转载】
错误信息:
UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence
这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,
这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。
而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。
[解决办法]
#将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,
#当然对于gbk等编码,处理同样问题的方法是类似的
strTest = strTxt.decode('utf-8', 'ignore')
return strTest
[补充]
默认的参数就是strict,代表遇到非法字符时抛出异常;
如果设置为ignore,则会忽略非法字符;
如果设置为replace,则会用?号取代非法字符;
如果设置为xmlcharrefreplace,则使用XML的字符引用。
相关文章推荐
- 64bit的python及32bit的office2010情况下pywin32无法操作access的解决方法
- 【Python】pydot安装失败解决方法
- python py2exe打包matplotlib Could not find the matplotlib data files问题解决
- python下运行报"SyntaxError: Non-ASCII character '/xe6' "错误解决方法
- Python3.6用Pyinstaller打包的解决办法
- cx_freeze 打包 python 程序 缺少 vc 运行库的解决方法
- python2.7.5下KNN file2matrix错误解决
- 解决php-memcache set,用python-memcache get报错的问题
- Python解决SEND MORE MONEY
- python scikit-learn 环境搭建问题解决记录
- 关于Python验证码识别安装PIL、tesseract-ocr与pytesseract模块的错误解决
- 利用Python来解决线性代数问题之行列式
- 用Python解决计数原理问题的方法
- 在pycharm中调用用caffe的python接口时,import caffe失败的解决办法
- Python 安装pybloomfilter 问题解决
- 运行Python2.x程序报编码错误的解决办法-UnicodeDecodeError: 'ascii' codec can't decode byte 0xb7 in position 7: ordina not in range(128)[0m
- python 2.5.x 找不到 python25_d.lib 解决
- 解决 Python shell 中 Delete/Backspace 键乱码问题
- webgoat 中 Blind String SQL Injection 的 Python 编程解决
- Python 异常之后不知多少行的解决办法