爬虫、网页分析解析辅助工具 Xpath-helper
2016-11-17 19:36
309 查看
搬运自本人博客:http://www.xgezhang.com/xpath_helper.html
每一个写爬虫、或者是做网页分析的人,相信都会因为在定位、获取xpath路径上花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。这里介绍一个chrome的xpath辅助插件给大家。
先给到下载链接:xpath-helper
安装好之后,我们重新打开浏览器,按ctrl+shift+x就能调出xpath-helper框了。界面如下:
如果我们要查找某一个、或者某一块元素的xpath路径,可以按住shift,并移动到这一块中,上面的框就会显示这个元素的xpath路径,右边则会显示解析出的文本内容,并且我们可以自己改动xpath路径,程序也会自动的显示对应的位置,可以很方便的帮助我们判断我们的xpath语句是否书写正确。
虽然这个小插件使用非常方便,但它也不是万能的,有两个问题:
1.XPath Helper 自动提取的 XPath 都是从根路径开始的,这几乎必然导致 XPath 过长,不利于维护;
2.当提取循环的列表数据时,XPath Helper 是使用的下标来分别提取的列表中的每一条数据,这样并不适合程序批量处理,还是需要人为修改一些类似于*标记等。
不过,合理的使用Xpath,还是能帮我们省下很多时间的!
版权声明:本文为博主原创文章,未经博主允许不得转载。
每一个写爬虫、或者是做网页分析的人,相信都会因为在定位、获取xpath路径上花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。这里介绍一个chrome的xpath辅助插件给大家。
先给到下载链接:xpath-helper
安装好之后,我们重新打开浏览器,按ctrl+shift+x就能调出xpath-helper框了。界面如下:
如果我们要查找某一个、或者某一块元素的xpath路径,可以按住shift,并移动到这一块中,上面的框就会显示这个元素的xpath路径,右边则会显示解析出的文本内容,并且我们可以自己改动xpath路径,程序也会自动的显示对应的位置,可以很方便的帮助我们判断我们的xpath语句是否书写正确。
虽然这个小插件使用非常方便,但它也不是万能的,有两个问题:
1.XPath Helper 自动提取的 XPath 都是从根路径开始的,这几乎必然导致 XPath 过长,不利于维护;
2.当提取循环的列表数据时,XPath Helper 是使用的下标来分别提取的列表中的每一条数据,这样并不适合程序批量处理,还是需要人为修改一些类似于*标记等。
不过,合理的使用Xpath,还是能帮我们省下很多时间的!
版权声明:本文为博主原创文章,未经博主允许不得转载。
相关文章推荐
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 爬虫、网页分析解析辅助工具 Xpath-helper
- 2.2 Xpath-helper (chrome插件) 爬虫、网页分析解析辅助工具
- XPath Helper:chrome爬虫网页解析工具 Chrome插件图文教程
- xpath helper插件:网页爬虫分析工具
- XPath Helper:chrome爬虫网页解析工具 Chrome插件
- 【XPath Helper:chrome爬虫网页解析工具 Chrome插件】XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插件网
- python3 网页解析工具1之XPath
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- node.js基础模块http、网页分析工具cherrio实现爬虫
- 网页速度分析 && 网页头文件解析 && 性能优化 && httpwatch工具使用
- xpath: Python网页爬虫定位辅助利器
- node.js基础模块http、网页分析工具cherrio实现爬虫
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 爬虫基础 --xpath和lxml(解析网页信息)
- python 爬虫(xpath解析网页,下载照片)
- [z]C#使用WebBrowser制作网页游戏辅助工具关键技术分析
- node.js基础模块http、网页分析工具cherrio实现爬虫