python中用lxml解析html
2014-12-29 01:55
676 查看
lxml,是python中用来处理xml和html的功能最丰富和易用的库。详情见:http://lxml.de/index.html。
在windows下安装lxml,可以用easy_install工具,也可以直接安装二进制文件。为了方便,我选择直接用二进制方式安装。
二进制文件的下载页面:https://pypi.python.org/pypi/lxml/3.4.1
选择合适的版本,因我的系统是win7,64位,python版本为2.7,所以我选择如下lxml版本。
安装完成后,就可以开始python代码了:
用到的html文件:
用lxml来解析,不会因为文档头小写而解析失败。
在windows下安装lxml,可以用easy_install工具,也可以直接安装二进制文件。为了方便,我选择直接用二进制方式安装。
二进制文件的下载页面:https://pypi.python.org/pypi/lxml/3.4.1
选择合适的版本,因我的系统是win7,64位,python版本为2.7,所以我选择如下lxml版本。
安装完成后,就可以开始python代码了:
import codecs import sys from lxml import etree tree = etree.HTML(open('d:\\GitHub\\python27\\simple.html','r').read()) nodes = tree.xpath("//div[@id='name']") print(nodes[0]).text
用到的html文件:
<!DOCTYPE html> <html> <head> <title>This is a simple html file</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> </head> <body> <div id="container"> <div id="name" class="item">勇者面码</div> <div id="sex">女</div> <div id="borth">9.18</div> </div> </body> </html>
用lxml来解析,不会因为文档头小写而解析失败。
相关文章推荐
- Python lxml解析HTML并用xpath获取元素
- Python网页解析:BeautifulSoup vs lxml.html
- Python:用lxml解析HTML
- python 解析html 时lxml跟beautifulSoup对比
- 转:Python网页解析:BeautifulSoup vs lxml.html
- Python+lxml解析html
- Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
- Python使用lxml解析HTML response
- Python中尝试用lxml去解析html
- python 使用lxml解析html(xpath)
- 使用python的lxml解析html
- 【小平工作日志】python利用lxml解析抓取的html页面
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 用python解析html[SGMLParser]
- Python 网络编程测试-HTML解析
- python3解析库lxml的安装与基本使用
- 用python解析html
- 使用Python中HTTPParser模块进行简单的html解析
- python网络编程学习笔记(7):HTML和XHTML解析(HTMLParser、BeautifulSoup)
- 用python解析html