八爪鱼采集器︱加载更多、再显示20条图文教程(Xpatth、Ajax)
2016-10-19 18:40
218 查看
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
![](http://img.blog.csdn.net/20161213101203247)
———————————————————————————
由于代码布置采集器比较麻烦,又很早知道八爪鱼采集器的强大,所以把一些常规的采集内容贴成图文教程,供以后使用。
八爪鱼采集器官方视频教程见:http://www.bazhuayu.com/tutorial/zxs.aspx?t=0
采集流程:
1、打开网页
2、寻找“加载更多”、“在显示20条”的Xpath的路径
3、设置循环、Ajax
4、循环-提取内容
5、内容正则化
6、布置采集
注意是:先循环完列表,然后再提取数据。
——————————————————————————————
![](http://img.blog.csdn.net/20161019181108772?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
——————————————————————————————
![](http://img.blog.csdn.net/20161019181224071?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
在附加组件里面。需要加载两个插件:firebug、firePath。自己搜索一下,就能下载得到。
![](http://img.blog.csdn.net/20161019181424740?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
右键:“使用Firebug查看元素”,
点击“FirePath”
点击原页面的“加载页面”,Xpath就会显示出来了。
![](http://img.blog.csdn.net/20161019181631905?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
——————————————————————————————
![](http://img.blog.csdn.net/20161019182221930?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
同时,拖拽一个点击元素在里面,并在”高级选项“设置两个步骤:
勾选“使用循环”;
勾选Ajax加载,设置2s。
![](http://img.blog.csdn.net/20161019182412587?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
——————————————————————————————
直接点击元素——创建一个元素列表以处理一组元素——添加列表——继续编辑列表——再点击——添加到列表——创建列表完成——循环
同时注意的是:如果是加载更多、再显示的问题,不能放在上述的循环之上,要放在之下。
5、提取数据——正则化
提取数据的时候,会出现需要只选择一部分,需要选择:
![](http://img.blog.csdn.net/20161019183650983?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
格式化数据-添加步骤,然后进行步骤的选择。
——————————————————————————————
最终的流程表:
![](http://img.blog.csdn.net/20161019183800155?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
![](http://img.blog.csdn.net/20161213101203247)
———————————————————————————
———————————————————————————
由于代码布置采集器比较麻烦,又很早知道八爪鱼采集器的强大,所以把一些常规的采集内容贴成图文教程,供以后使用。
八爪鱼采集器官方视频教程见:http://www.bazhuayu.com/tutorial/zxs.aspx?t=0
采集流程:
1、打开网页
2、寻找“加载更多”、“在显示20条”的Xpath的路径
3、设置循环、Ajax
4、循环-提取内容
5、内容正则化
6、布置采集
注意是:先循环完列表,然后再提取数据。
——————————————————————————————
1、打开网页
打开网页部分,就是你自己想要的网页。——————————————————————————————
2、寻找“加载更多”、“在显示20条”的Xpath的路径
官方认为火狐浏览器,加载一些插件就可以了。在附加组件里面。需要加载两个插件:firebug、firePath。自己搜索一下,就能下载得到。
右键:“使用Firebug查看元素”,
点击“FirePath”
点击原页面的“加载页面”,Xpath就会显示出来了。
——————————————————————————————
3、设置循环、Ajax
然后填写在“单个元素“里面,如果上面出现字样——”加载更多“,那么就代表这个步骤设置成功。同时,拖拽一个点击元素在里面,并在”高级选项“设置两个步骤:
勾选“使用循环”;
勾选Ajax加载,设置2s。
——————————————————————————————
4、循环-提取内容
这个步骤,跟常规的设置一样。直接点击元素——创建一个元素列表以处理一组元素——添加列表——继续编辑列表——再点击——添加到列表——创建列表完成——循环
同时注意的是:如果是加载更多、再显示的问题,不能放在上述的循环之上,要放在之下。
5、提取数据——正则化
提取数据的时候,会出现需要只选择一部分,需要选择:
格式化数据-添加步骤,然后进行步骤的选择。
——————————————————————————————
最终的流程表:
每每以为攀得众山小,可、每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~
———————————————————————————
相关文章推荐
- 用ajax打造和gmail一样的加载进度条显示!(原创)
- jQuery 源代码显示控件 (Ajax加载方式).
- Xp系统下配置IIS图文教程
- [给力原创]使用jQuery-ajax仿新浪微博通知折叠/显示效果,实现数据加载
- Windows 7 Tips: 如何更改系统的显示语言(图文教程)
- 结合XP详解Vista系统配置排查故障图文教程
- win7 快速显示桌面 windows7窗口变透明的技巧与方法(图文教程)
- 使用一键GHOST安装XP系统完整教程(图文)
- XP硬盘安装Fedora14图文教程
- 教你把XP系统装入VHD图文教程
- jQuery 源代码显示控件 (Ajax加载方式).
- 十大最佳Ajax教程收集(图文)
- 十大最佳Ajax教程收集(图文)
- 用VirtualBox实现xp下多系统(dsl linux安装)图文教程
- XP硬盘安装Fedora14图文教程
- jQuery插件---源代码显示.(Ajax加载方式).
- 十大最佳Ajax教程(图文)
- PADS Logic图文教程(一):栅格的设置和显示
- Win8/Win7或XP 双系统安装图文教程
- windows7任务栏显示桌面按钮不见了的解决方法(图文教程)