python爬虫之xpath的使用方法
2018-08-02 21:30
405 查看
XPath的使用方法:
四种标签的使用方法
1) // 双斜杠 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。
2) / 单斜杠 寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符 使用|可选取若干个路径 如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点 用来选取当前节点
7) .. 双点 选取当前节点的父节点
8)获取真正内容 :response.selector.xpath(‘//title/text()’).extract_first()
In [2]: response.selector.xpath('//title/text()') Out[2]: [<Selector xpath='//title/text()' data='Example website'>] 举例说明:
In [3]: response.selector.xpath('//title/text()').extract_first() Out[3]: 'Example website'阅读更多
相关文章推荐
- python爬虫神器PyQuery的使用方法
- 玩转python爬虫之cookie使用方法
- 【用Python写爬虫】获取html的方法【一】:使用urllib
- python3爬虫必学Xpath,快速使用lxml.etree
- python爬虫神器PyQuery的使用方法
- python爬虫,selenium使用,Firefox-chrome-IE问题解决方法,selenium的基本操作
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- xpath的使用方法以及python爬取数据的保存
- python爬虫:BeautifulSoup 使用select方法的使用
- python爬虫神器PyQuery的使用方法
- Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】
- python写爬虫使用urllib2方法
- 用python写网络爬虫-使用xpath代替正则表达式
- python爬虫(20)使用真实浏览器打开网页的两种方法
- 【用Python写爬虫】获取html的方法【二】:使用pycurl
- 【Python3.6爬虫学习记录】(六)urllib详细使用方法(header,代理,超时,认证,异常处理)
- Python使用XPATH解析特定结构XML文件速度提升方法
- Python爬虫神器PyQuery的使用方法
- python爬虫神器PyQuery的使用方法
- 【用Python写爬虫】获取html的方法【四】:使用urllib下载文件