您的位置:首页 > 编程语言 > Python开发

python爬虫之xpath的使用方法

2018-08-02 21:30 405 查看

XPath的使用方法:
四种标签的使用方法
1) // 双斜杠 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。
2) / 单斜杠 寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符 使用|可选取若干个路径 如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点 用来选取当前节点
7) .. 双点 选取当前节点的父节点
8)获取真正内容 :response.selector.xpath(‘//title/text()’).extract_first()

In [2]: response.selector.xpath('//title/text()')
Out[2]: [<Selector xpath='//title/text()' data='Example website'>]
举例说明:
In [3]: response.selector.xpath('//title/text()').extract_first()
Out[3]: 'Example website'
阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: