网页爬虫进阶系列之ebay商品图片爬虫制作
2018-03-20 09:02
796 查看
本文演示使用八爪鱼抓取ebay网站图片的方法,可以将网页中图片的URL收集下来,再 八爪鱼专用的图片批量下载工具,将收集到的图片URL中的图片,下载并保存到本地电脑中。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
本文仅以nike关键词搜索结果页举例说明,大家在抓取ebay图片的时候,如果有其他需求,可以更换关键词搜索结果页进行收集。
使用功能点:
l 分页列表信息收集
l 执行前等待
l 图片URL转换
步骤1:创建收集任务
1)进入主界面,选择“自定义收集”
![](http://bzy.dream-world.cn/images_3632-0.jpg)
大图>>
ebay爬虫数据收集步骤1
2)将上面网址的网址复制粘贴到网站输入框中, “保存网址”
![](http://bzy.dream-world.cn/images_3632-1.jpg)
大图>>
ebay爬虫数据收集步骤2
3)系统自动打开网页,红色方框中的图片是这次演示要收集的内容
![](http://bzy.dream-world.cn/images_3632-2.jpg)
大图>>
ebay爬虫数据收集步骤3
步骤二:创建翻页循环
1) 右上角的“流程”,即可以看到配置流程图。将页面下拉到底部,找到下一页的大于号标志按钮,鼠标 ,在右侧操作提示框中,选择“循环 单个链接”
![](http://bzy.dream-world.cn/images_3632-3.jpg)
大图>>
ebay爬虫数据收集步骤4
由于该网页每次翻页 网址随之变化,所以不是ajax页面,不需要设置ajax。如果有网站每次翻页,网址不变,则需要在高级选项设置ajax加载。
步骤三:图片链接地址收集
1)选中页面内第一个图片,系统会自动识别同类图片。在操作提示框中,选择“选中全部”
![](http://bzy.dream-world.cn/images_3632-4.jpg)
大图>>
ebay爬虫数据收集步骤5
2)选择“收集以下图片地址”
![](http://bzy.dream-world.cn/images_3632-5.jpg)
大图>>
ebay爬虫数据收集步骤6
由左上角流程图中可见,八爪鱼对本页全部图片进行了循环,并在“提取数据”中对图片链接地址进行了提取。
此时可以用鼠标随意 循环列表中的某一条,再 “提取数据”,验证一下是否都有正常提取。如果有的循环项没有提取到,说明该xpath定位不准,需要修改。(多次测试,尚未发现不准情况。)
![](http://bzy.dream-world.cn/images_3632-6.jpg)
大图>>
ebay爬虫数据收集步骤7
如还想提取其他字段,如标题,可选择“提取数据”,在下方的商品列表上 一个商品的标题,选择“收集该链接的文本”
![](http://bzy.dream-world.cn/images_3632-7.jpg)
大图>>
ebay爬虫数据收集步骤8
修改下字段的名称,如网页加载较慢,可设置“执行前等待”
![](http://bzy.dream-world.cn/images_3632-8.jpg)
大图>>
ebay爬虫数据收集步骤9
“开始收集, 版用户 “启动本地收集”,旗舰版用户可 “启动云收集”
![](http://bzy.dream-world.cn/images_3632-9.jpg)
大图>>
ebay爬虫数据收集步骤10
说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。
步骤四:数据收集及导出
1)收集完成后,选择导出数据
![](http://bzy.dream-world.cn/images_3632-10.jpg)
大图>>
ebay爬虫数据收集步骤11
2)选择合适的导出方式,将收集好的数据导出
![](http://bzy.dream-world.cn/images_3632-11.jpg)
大图>>
ebay爬虫数据收集步骤12
步骤五:将图片URL批量转换为图片
经过如上操作,我们已经得到了要收集的图片的URL。接下来,再 八爪鱼专用的图片批量下载工具,将收集到的图片URL中的图片,下载并保存到本地电脑中。
图片批量下载工具:https://pan.baidu.com/s/1c2n60NI
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
本文仅以nike关键词搜索结果页举例说明,大家在抓取ebay图片的时候,如果有其他需求,可以更换关键词搜索结果页进行收集。
使用功能点:
l 分页列表信息收集
l 执行前等待
l 图片URL转换
步骤1:创建收集任务
1)进入主界面,选择“自定义收集”
![](http://bzy.dream-world.cn/images_3632-0.jpg)
大图>>
ebay爬虫数据收集步骤1
2)将上面网址的网址复制粘贴到网站输入框中, “保存网址”
![](http://bzy.dream-world.cn/images_3632-1.jpg)
大图>>
ebay爬虫数据收集步骤2
3)系统自动打开网页,红色方框中的图片是这次演示要收集的内容
![](http://bzy.dream-world.cn/images_3632-2.jpg)
大图>>
ebay爬虫数据收集步骤3
步骤二:创建翻页循环
1) 右上角的“流程”,即可以看到配置流程图。将页面下拉到底部,找到下一页的大于号标志按钮,鼠标 ,在右侧操作提示框中,选择“循环 单个链接”
![](http://bzy.dream-world.cn/images_3632-3.jpg)
大图>>
ebay爬虫数据收集步骤4
由于该网页每次翻页 网址随之变化,所以不是ajax页面,不需要设置ajax。如果有网站每次翻页,网址不变,则需要在高级选项设置ajax加载。
步骤三:图片链接地址收集
1)选中页面内第一个图片,系统会自动识别同类图片。在操作提示框中,选择“选中全部”
![](http://bzy.dream-world.cn/images_3632-4.jpg)
大图>>
ebay爬虫数据收集步骤5
2)选择“收集以下图片地址”
![](http://bzy.dream-world.cn/images_3632-5.jpg)
大图>>
ebay爬虫数据收集步骤6
由左上角流程图中可见,八爪鱼对本页全部图片进行了循环,并在“提取数据”中对图片链接地址进行了提取。
此时可以用鼠标随意 循环列表中的某一条,再 “提取数据”,验证一下是否都有正常提取。如果有的循环项没有提取到,说明该xpath定位不准,需要修改。(多次测试,尚未发现不准情况。)
![](http://bzy.dream-world.cn/images_3632-6.jpg)
大图>>
ebay爬虫数据收集步骤7
如还想提取其他字段,如标题,可选择“提取数据”,在下方的商品列表上 一个商品的标题,选择“收集该链接的文本”
![](http://bzy.dream-world.cn/images_3632-7.jpg)
大图>>
ebay爬虫数据收集步骤8
修改下字段的名称,如网页加载较慢,可设置“执行前等待”
![](http://bzy.dream-world.cn/images_3632-8.jpg)
大图>>
ebay爬虫数据收集步骤9
“开始收集, 版用户 “启动本地收集”,旗舰版用户可 “启动云收集”
![](http://bzy.dream-world.cn/images_3632-9.jpg)
大图>>
ebay爬虫数据收集步骤10
说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。
步骤四:数据收集及导出
1)收集完成后,选择导出数据
![](http://bzy.dream-world.cn/images_3632-10.jpg)
大图>>
ebay爬虫数据收集步骤11
2)选择合适的导出方式,将收集好的数据导出
![](http://bzy.dream-world.cn/images_3632-11.jpg)
大图>>
ebay爬虫数据收集步骤12
步骤五:将图片URL批量转换为图片
经过如上操作,我们已经得到了要收集的图片的URL。接下来,再 八爪鱼专用的图片批量下载工具,将收集到的图片URL中的图片,下载并保存到本地电脑中。
图片批量下载工具:https://pan.baidu.com/s/1c2n60NI
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 网页爬虫进阶系列之美团店铺信息爬虫制作
- 网页爬虫进阶系列之百度地图搜索结果列表爬虫制作
- 网页爬虫进阶系列之东方财富网信息爬虫制作
- 图解“淘宝商品图片”网页爬虫制作的相关问题
- Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
- python脚本工具-1 制作爬虫下载网页图片
- 制作一个简单的网页爬虫爬取一张网页的特定图片
- python初级实战系列教程《一、爬虫之爬取网页、图片、音视频》
- 用八爪鱼制作的亚马逊商品销售排行榜信息网页爬虫
- 网页数据采集: 制作Amazon亚马逊网商品评论网页爬虫
- Python制作豆瓣图片的爬虫
- 爬虫网易LOFTER图片(适用于类似网页,如百度贴吧 )
- 网页加速系列(六)、 网页加速之进阶下篇
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
- Python 爬虫5——爬取并下载网页指定规格的图片
- 用cURL 制作一个简单的网页爬虫
- 用八爪鱼制作的阿里巴巴1688网页爬虫
- python爬虫进阶(一):静态网页爬取
- 网页制作html-给光标一个跟随的图片
- 如何用Python来制作简单的爬虫,爬取到你想要的图片