网页采集实践:配置亚马逊商品信息爬虫(值得收藏)
2018-03-27 09:22
731 查看
本文演示无需代码可视化的方法抓取亚马逊商品详细信息(以流行音乐CD为例)的方法。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:https://www.amazon.cn/b/ref=sa_menu_softwa_l3_b754389051?ie=UTF8&node=754389051
使用功能点:
分页列表信息抓取
亚马逊抓取数据说明:本文进行了亚马逊-流行音乐分类的商品信息抓取。本文仅以“亚马逊-流行音乐分类的商品信息抓取”为例。大家在实操过程中,可根据自身需求,更换亚马逊的其他内容进行数据抓取。
亚马逊抓取字段详细说明:商品名称,商品作者,商品 ,商品类型,商品评论数量、商品评论星级等。
步骤1:创建抓取任务
1)进入主界面,选择“自定义抓取”
放大看>>
2)将要抓取的网站网址复制粘贴到输入框中, “保存网址”
放大看>>
网址保存后,页面会在抓取器中打开。
步骤2:创建翻页循环
1)网页打开后,将页面下拉到底部, “下一页”按钮。在右侧的操作提示框中,选择“循环 下一页”
放大看>>
步骤3:CD信息抓取1)移动鼠标,选中页面里第一张CD的标题,抓取内容会变成绿色。
放大看>>
2)移动鼠标选中任意的文本字段以后,绿框中适配的内容会变成红色,在右侧的操作提示框中选择“选中子元素”。
放大看>>
3)然后再选择“选中全部”
放大看>>
4)然后可以查看选中的字段,将不需要的字段删除。
注意,可以把鼠标放到字段上面就会出现一个删除标识, 标识就可以删除不需要的字段。之后 右侧提示框中“抓取以下数据”进行数据抓取。
放大看>>
5)打开右上角流程按钮,可以修改字段名称
放大看>>
6)修改以后, 右面“保存并启动”开始抓取
放大看>>
步骤4:数据抓取及导出
1) “启动本地抓取”。
放大看>>
2)这里我们选择excel作为导出为格式
放大看>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:https://www.amazon.cn/b/ref=sa_menu_softwa_l3_b754389051?ie=UTF8&node=754389051
使用功能点:
分页列表信息抓取
亚马逊抓取数据说明:本文进行了亚马逊-流行音乐分类的商品信息抓取。本文仅以“亚马逊-流行音乐分类的商品信息抓取”为例。大家在实操过程中,可根据自身需求,更换亚马逊的其他内容进行数据抓取。
亚马逊抓取字段详细说明:商品名称,商品作者,商品 ,商品类型,商品评论数量、商品评论星级等。
步骤1:创建抓取任务
1)进入主界面,选择“自定义抓取”
放大看>>
2)将要抓取的网站网址复制粘贴到输入框中, “保存网址”
放大看>>
网址保存后,页面会在抓取器中打开。
步骤2:创建翻页循环
1)网页打开后,将页面下拉到底部, “下一页”按钮。在右侧的操作提示框中,选择“循环 下一页”
放大看>>
步骤3:CD信息抓取1)移动鼠标,选中页面里第一张CD的标题,抓取内容会变成绿色。
放大看>>
2)移动鼠标选中任意的文本字段以后,绿框中适配的内容会变成红色,在右侧的操作提示框中选择“选中子元素”。
放大看>>
3)然后再选择“选中全部”
放大看>>
4)然后可以查看选中的字段,将不需要的字段删除。
注意,可以把鼠标放到字段上面就会出现一个删除标识, 标识就可以删除不需要的字段。之后 右侧提示框中“抓取以下数据”进行数据抓取。
放大看>>
5)打开右上角流程按钮,可以修改字段名称
放大看>>
6)修改以后, 右面“保存并启动”开始抓取
放大看>>
步骤4:数据抓取及导出
1) “启动本地抓取”。
放大看>>
2)这里我们选择excel作为导出为格式
放大看>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 网页采集实践:配置京东商品评论爬虫(值得收藏)
- 网页采集实践:配置百度文库文档爬虫(值得收藏)
- 网页数据采集: 制作Amazon亚马逊网商品评论网页爬虫
- 用八爪鱼制作的亚马逊商品销售排行榜信息网页爬虫
- 网页爬虫之58同城房屋出租信息的采集规则配置方法
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- 网页爬虫技术之京东商品采集教程图解
- 爬虫实践---Selenium-抓取淘宝搜索商品信息
- 京东商品评价信息采集爬虫开发教程
- Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
- python爬虫之伪造报头来采集网页信息
- 网页爬虫实例:采集知乎话题信息
- 网页爬虫实例:采集1688热门商品
- 如何使用爬虫采集天猫店铺商品信息
- 网页爬虫之新浪微博网页数据的采集规则配置方法
- 如何使用淘宝商品信息采集爬虫-采集电商商品
- 亚马逊商品销售排行榜信息采集
- 京东商品信息和评价采集爬虫源码
- 爬虫项目-爬取亚马逊商品信息