Python抓取gb2312字符集网页中文乱码
2016-03-03 18:15
567 查看
最近在学习Python,练习用Python抓取网页内容并解析,在解析gb2312字符集网页时出现中文乱码:UnicodeEncodeError: 'gbk' codec can't encode character u'\xbb' in position 0: illegal multibyte sequence网上找了一大推,长篇大论啰嗦了半天都不知道在讲什么,原来Python程序员的表达能力这么差。后来找到一个解决方案,参考:http://www.zhetenga.com/view/python%E7%9A%84requests%E7%B1%BB%E6%8A%93%E5%8F%96%E4%B8%AD%E6%96%87%E9%A1%B5%E9%9D%A2%E5%87%BA%E7%8E%B0%E4%B9%B1%E7%A0%81-0abbaa140.html也就是用网页中的字符编码方式重新编码一次即可:
# 使用requests库封装一个简单的通过get方式获取网页源码的函数 def getsource(url): html = requests.get(url) s = html.text.encode(html.encoding) # print s return s当然 # coding:utf-8 也是要加的。
相关文章推荐
- 关于python使用hadoop(使用python操作hdfs)
- python qrcode 库的使用
- python 装饰器 上下文管理器 迭代器 生成器 描述符
- python开发_常用的python模块及安装方法
- python——正则表达式
- POPTEST老李分享源代码-扫描端口(python)
- Python Mako
- python系统编码-稍后更新
- Python3.4安装PyOpenGL模块及PIP常用命令
- Python 爬虫 字符集乱码问题
- Python基础(二)之Python变量和数据类型
- Python-----序列化
- Windows下Python及Scrapy的安装
- python对excel的操作
- python while循环控制流语句结构与用法
- Python学习基础(9):函数式编程
- Python 字符串、列表、字典 操作方法大全 & 正则re
- Python else与elif语句语法讲解
- 四、Opencv2.4.9和Python工具包的安装
- 深入理解Python中各种方法的运作原理(静态方法、类方法、抽象方法)