python 解析html标签中的属性
2016-02-23 13:37
591 查看
#!/usr/bin/python from lxml import etree from io import StringIO, BytesIO from HTMLParser import HTMLParser from lxml import html if __name__ == '__main__': # print(type(data)) data ={u'seatbid': [{u'bid': [{u'nurl': u'http://baidu.com', u'cid': u'986191', u'crid': u'4581591', u'price': 0.1317348624101392, u'adid': u'56cb0b8b70f8f8100805eeda', u'adomain': [u'mobvista.com'], u'adm': u'<a href="http://52.0.105.35/0.jpg" width ="320" height ="50" /> <html> <body><script type=\'text/javascript\'> var ifr = document.createElement(\'iframe\'); ifr.style.display = \'none\'; ifr.src = \'http://beijing.com?a=1&appname=test\'; document.body.appendChild(ifr); </script> </body></html></a> ', u'id': u'222'}]}], u'id': u'bid1-7'} admstr = data['seatbid'][0]['bid'][0]['adm'] tree = html.fromstring(admstr) # print [e.text_content() for e in tree.xpath("//a")] // result is ok parser = etree.HTMLParser() tree = etree.parse(StringIO(admstr), parser) ahref = [a.attrib['href'] for a in tree.xpath("//a")] imghref=[img.attrib['src'] for img in tree.xpath("//img")] print "ahref is :",ahref[0] print "imghref is :",imghref[0]
相关文章推荐
- python-pexpect模块的使用(ssh服务器 自动登录批量执行scp)
- python代码风格指南:PEP8 中文
- 正态分布,Python实现
- 在Source Insight中看Python代码
- 图标消息提示效果
- tkinter示例:登录
- python实践报错:SyntaxError: Non-ASCII character
- Python性能分析方法
- python多线程ssh爆破
- text_mining_tutorial
- 理解Python的双下划线命名(转过来慢慢理解)
- python sys.getsizeof(int())
- Python 全栈开发 -- 开发环境篇
- Python 全栈开发 -- 开发环境篇
- python 修改vs工程属性
- windows7系统下Python环境的搭建
- 明白python文件如何组织,理解建立源文件
- 【LEETCODE】328- Odd Even Linked List [Python]
- Python中的下划线(译文)
- python中三个单引号的作用