python爬取网页时去除html标签(如nbsp)
2015-12-08 17:25
686 查看
import HTMLParser import urllib2 response = urllib2.urlopen(url) html = response.read().decode('utf-8') html_parser = HTMLParser.HTMLParser() data = html_parser.unescape(html)
相关文章推荐
- Python 模版(四)
- python error
- python实战系列之模拟用户密码登陆系统(一)
- python之路: 基础篇
- [转]用python 10min手写一个简易的实时内存监控系统
- python 学习笔记
- 理解Python中的装饰器
- Python 模版(三)
- Python 模版(二)
- 使用Python编写简单的画图板程序的示例教程
- Python split()函数默认参数
- 【python】使用Python中的urlparse、urllib抓取和解析网页
- python dict list 排序专题
- 14个最受欢迎的Python开源框架综述
- Python读取图片,并保存为矩阵
- Python基础之面向对象(进阶篇)
- 一波神奇的Python语句、函数与方法的使用技巧总结
- python 杂记
- Python3.4 邮件(包含附件与中国)
- Python sqlalchemy 多表查询 没有外键