python处理网页时的unicode编码问题
2015-07-29 21:44
736 查看
最近调试保存博客页面的时候,遇到下面的问题:
解决办法参考http://blog.sina.com.cn/s/blog_6c39196501013s5b.html
主要如下:
在出现问题的页加上如下三行即可:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
flying-bird@flyingbird:~/Downloads/export_blog$ ./images_parser.py 2015-07-29-2/Windows平台下面的MD5算法.htm Traceback (most recent call last): File "./images_parser.py", line 154, in <module> _test(sys.argv[1]) File "./images_parser.py", line 146, in _test get_image_items(content) File "./images_parser.py", line 133, in get_image_items parser.feed(content) File "/usr/lib/python2.7/HTMLParser.py", line 117, in feed self.goahead(0) File "/usr/lib/python2.7/HTMLParser.py", line 161, in goahead k = self.parse_starttag(i) File "/usr/lib/python2.7/HTMLParser.py", line 308, in parse_starttag attrvalue = self.unescape(attrvalue) File "/usr/lib/python2.7/HTMLParser.py", line 475, in unescape return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));", replaceEntities, s) File "/usr/lib/python2.7/re.py", line 151, in sub return _compile(pattern, flags).sub(repl, string, count) UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 7: ordinal not in range(128)
解决办法参考http://blog.sina.com.cn/s/blog_6c39196501013s5b.html
主要如下:
在出现问题的页加上如下三行即可:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
相关文章推荐
- 《learning python the hard way》习题46 项目骨架搭建 问题小结(一)之软件包的安装
- python的除法
- Python多线程的threading Event
- fedora13 python2.6升级到python2.7
- Python笔记之不可不练
- python安装及入门
- openCV—Python(7)—— 彩色图像R、G、B分量的提取与合并及其相关颜色空间的转化
- Python 之 sklearn 交叉验证 数据拆分
- python获取指定路径下所有指定后缀文件的方法
- python学习——Numpy(1)
- Python 选择排序
- 3.Python基础 序列sequence
- Python re 正则模块
- python基础教程总结15——6 CGI远程编辑
- openCV—Python(6)—— 图像算数与逻辑运算
- python os.walk和os.path.walk
- 用python免登錄把人人網某個相冊的全部照片下載下來
- [python]学习笔记3-字符串内建函数2
- Python 用 os.walk 遍历目录
- python练习题(二)