Python lxml解析HTML并用xpath获取元素
2017-09-04 17:32
447 查看
代码
使用方法见注释#-*- coding: UTF-8 -*- from lxml import etree source = u''' <div><p class="p1" data-a="1">测试数据1</p> <p class="p1" data-a="2">测试数据2</p> <p class="p1" data-a="3" style="height:100px;"> <strong class="s">测试数据3</strong></p> <p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/> 图片</p> ''' # 从字符串解析 page = etree.HTML(source) # 元素列表 ps = page.xpath("//p") for p in ps: print u"属性:%s" % p.attrib print u"文本:%s" % p.text # 文本列表 ts = page.xpath("//p/text()") for t in ts: print t # xpath定位 ls = page.xpath('//p[@class="p1"][last()]/img') for l in ls: print l.attrib
参考地址
http://lxml.de/tutorial.htmlhttp://www.cnblogs.com/descusr/archive/2012/06/20/2557075.html
相关文章推荐
- Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
- python 使用lxml解析html(xpath)
- Python使用lxml解析HTML response
- python 解析html 时lxml跟beautifulSoup对比
- lxml解析html时,检验XPath
- python模块之HTMLParser: 解析html,获取url
- 使用XPath解析HTML获取网页内容
- python模块之HTMLParser: 解析html,获取url
- python模块学习---HTMLParser(解析HTML文档元素)
- python模块之 HTMLParser: 解析html,获取url
- HTML解析之五:lxml的XPath解析
- python模块学习---HTMLParser(解析HTML文档元素)
- Python Xpath 提取html整个元素(标签与内容)
- JAVA解析HTML,获取待定元素属性
- python模块之HTMLParser: 解析html,获取url
- Jquery、Java解析html字符串成dom对象,遍历dom对象获取图片元素(或者其子元素)
- python模块之HTMLParser: 解析html,获取url
- Python爬虫项目,获取所有网站上的新闻,并保存到数据库中,解析html网页等(未完待续)
- Python中利用xpath解析HTML的方法
- 在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫