Python网页抓取之Lxml
2017-05-09 10:48
134 查看
Lxml是基于libxml2这一XML解析库的Python封装。该模块使用C语言编写,解析速度比BeautifulSoup更快。
Lxml可以正确解析属性两侧缺失的引号,并闭合标签。如案例一
案例二是Lxml的CSS选择器抽取面积数据的实例代码
Lxml可以正确解析属性两侧缺失的引号,并闭合标签。如案例一
案例二是Lxml的CSS选择器抽取面积数据的实例代码
#coding=utf-8 import lxml.html import urllib #import cssselect """案例一""" #缺省的代码 # broken_html = '<ul class=country><li>area<li>population</ul>' # # tree = lxml.html.fromstring(broken_html) # fixed_html = lxml.html.tostring(tree,pretty_print=True) # print fixed_html """案例二""" url = "http://example.webscraping.com/places/view/united-Kingdom-239" html = urllib.urlopen(url).read() tree = lxml.html.fromstring(html) td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0] area = td.text_content() print area
相关文章推荐
- Python 利用urllib2 lxml 抓取网页信息
- 用python的curl和lxml来抓取和分析网页内容
- Python豆瓣静态网页抓取,lxml解析和显示(实验)
- Python抓取网页并保存为PDF
- python抓取网页出现 ^M 解决办法
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup) (转)
- Python通过HTTP协议定期抓取网页
- python访问抓取网页常用命令总结
- 使用python抓取有道词典的网页并返回结果信息
- Python爬虫之网页图片抓取的方法
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- Python抓取中文网页出现乱码
- Python抓取百度贴吧网页信息以及代码下载
- 用Python模拟登录正方教务系统并抓取初始网页的一些个人笔记
- python抓取中文网页显示乱码问题
- Python中的urlparse、urllib抓取和解析网页(一)
- 利用python抓取网页各种类型内容(静态、动态)
- python 抓取网页
- 使用python抓取网页(以人人网新鲜事和团购网信息为例)
- 利用Python和Beautiful Soup抓取网页内容