scrapy的xpath语法
2017-12-20 18:11
218 查看
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/
之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
几个简单的例子:
/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
基本的路径意义:
之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。
xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。
几个简单的例子:
/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素
基本的路径意义:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
相关文章推荐
- python scrapy xpath常用语法
- 3、scrapy——xpath语法
- python.scrapy爬虫-xpath查询语法
- Scrapy官网tutorial、Requests官网文档、lxml官方文档、XPath语法、python核心模块pickle和cPickle讲解
- XPath语法以及谓语的结合使用
- [转]XPath 语法
- Xpath语法与lxml库的用法
- 【selenium】XPATH语法(一)
- JQuery 选择器 xpath 语法应用
- Dom4j使用Xpath语法读取xml节点 .
- XPath 语法
- XPath的语法及应用
- 最全的xpath语法
- xpath的语法
- XDocument读取xml的所有元素以及XPath语法[转]
- XPath语法 在C#中使用XPath示例
- scrapy中使用xpath遇到的中文问题
- XPath语法在C#中使用XPath示例第二讲
- Xpath语法