处理UnicodeDecodeError: ‘XXX' codec can't decode bytes
2013-09-01 17:53
183 查看
错误信息: UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence 这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57, 这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格 真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。 而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。
[解决办法] #将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符, #当然对于gbk等编码,处理同样问题的方法是类似的 strTest = strTxt.decode('utf-8', 'ignore') return strTest [补充] 默认的参数就是strict,代表遇到非法字符时抛出异常; 如果设置为ignore,则会忽略非法字符; 如果设置为replace,则会用?号取代非法字符; 如果设置为xmlcharrefreplace,则使用XML的字符引用。
[解决办法] #将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符, #当然对于gbk等编码,处理同样问题的方法是类似的 strTest = strTxt.decode('utf-8', 'ignore') return strTest [补充] 默认的参数就是strict,代表遇到非法字符时抛出异常; 如果设置为ignore,则会忽略非法字符; 如果设置为replace,则会用?号取代非法字符; 如果设置为xmlcharrefreplace,则使用XML的字符引用。
相关文章推荐
- [Android]在代码里运行另一个程序的方法
- 网页恶意代码的预防
- 处理驱动器和文件夹
- 高手写的Tracer-Flash代码调试类代码下载
- CSS代码缩写技巧
- 非主流Q-zOne代码代码搜集第1/2页
- CreateWeb.vbs 代码
- 计算机信息处理
- 十个习惯让你精通新的开发技术
- 处理 SSI 文件时出错的解决方法
- 更有效率的css代码编写第1/3页
- perl 中文处理技巧
- SQL语言查询基础:连接查询 联合查询 代码
- 用文本作数据处理
- 论坛头像随机变换代码
- 使用PHP的错误处理
- php对图像的各种处理函数代码小结
- DOS 下的批处理文件
- .NET 常用功能和代码小结
- asp编程中常用的javascript辅助代码第1/2页