您的位置:首页 > 其它

scrapy的xpath语法

2017-12-20 18:11 218 查看
Scrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/
  之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息(比如说url),就比较容易处理网页了。

  xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。

  

  几个简单的例子:

  /html/head/title: 选择HTML文档<head>元素下面的<title> 标签。

  /html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容

  //td: 选择所有 <td> 元素

  //div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

 

  基本的路径意义:

  

表达式描述
nodename选取此节点的所有子节点。
/从根节点选取。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。
  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: