使用python的lxml解析html
2011-08-07 15:59
826 查看
ibm有技术文章:
http://www.ibm.com/developerworks/cn/xml/x-hiperfparse/
首先是安装lxml
doc.xpath()返回一个满足条件的list
使用由 Python 编写的 lxml 实现高性能 XML 解析
http://www.ibm.com/developerworks/cn/xml/x-hiperfparse/首先是安装lxml
doc.xpath()返回一个满足条件的list
# coding=gb2312 from lxml import * import lxml.html import urllib2 import lxml.html as H def getjarinfo(url): c=urllib2.urlopen(url) f=c.read() doc = H.document_fromstring(f) tables=doc.xpath("//table[@id='xiazai']") pinpais=doc.xpath("//td[@id='pinpai']") jixings=doc.xpath("//div[@id='jixing']") jars = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]") for j in range(len(pinpais)): print jars[j].get('href') print pinpais[j].text_content() print jixings[j].text_content() e=doc.xpath(u"//div[text()='%s']" % u"游戏介绍") describe=e[0].getnext().text_content() #r = doc.xpath("//table[@id='xiazai']//tr[2]/td[1]/a[1]")[0] #jarurl=r.get('href') if __name__ == '__main__': url='http://game.3533.com/game/30862.htm' getjarinfo(url)
相关文章推荐
- python 使用lxml解析html(xpath)
- Python使用lxml解析HTML response
- python 解析html 时lxml跟beautifulSoup对比
- Python使用BeautifulSoup库解析HTML基本使用教程
- python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html
- Python+lxml解析html
- Python lxml解析HTML并用xpath获取元素
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- Python:用lxml解析HTML
- Python使用BeautifulSoup库解析HTML基本使用教程
- Python2.7 使用HTMLParser简单解析HTML
- python中使用beautifulsoup4解析网页Html
- python 模块-使用HTMLParser 解析html
- 【小平工作日志】python利用lxml解析抓取的html页面
- Python 爬虫(以赛马数据为例)之使用BeautifulSoup进行Html解析
- 使用由 Python 编写的 lxml 实现高性能 XML 解析
- 使用Python的HTMLParser解析HTML文本
- python 使用 BeautifulSoup 解析html