您的位置:首页 > 其它

网页采集实践:配置亚马逊商品信息爬虫(值得收藏)

2018-03-27 09:22 731 查看
本文演示无需代码可视化的方法抓取亚马逊商品详细信息(以流行音乐CD为例)的方法。。

在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

演示网址:https://www.amazon.cn/b/ref=sa_menu_softwa_l3_b754389051?ie=UTF8&node=754389051

使用功能点:

分页列表信息抓取

亚马逊抓取数据说明:本文进行了亚马逊-流行音乐分类的商品信息抓取。本文仅以“亚马逊-流行音乐分类的商品信息抓取”为例。大家在实操过程中,可根据自身需求,更换亚马逊的其他内容进行数据抓取。

亚马逊抓取字段详细说明:商品名称,商品作者,商品 ,商品类型,商品评论数量、商品评论星级等。

步骤1:创建抓取任务

1)进入主界面,选择“自定义抓取”



放大看>>

2)将要抓取的网站网址复制粘贴到输入框中, “保存网址”



放大看>>

网址保存后,页面会在抓取器中打开。

步骤2:创建翻页循环

1)网页打开后,将页面下拉到底部, “下一页”按钮。在右侧的操作提示框中,选择“循环 下一页”



放大看>>

步骤3:CD信息抓取1)移动鼠标,选中页面里第一张CD的标题,抓取内容会变成绿色。



放大看>>

2)移动鼠标选中任意的文本字段以后,绿框中适配的内容会变成红色,在右侧的操作提示框中选择“选中子元素”。



放大看>>

3)然后再选择“选中全部”



放大看>>

4)然后可以查看选中的字段,将不需要的字段删除。

注意,可以把鼠标放到字段上面就会出现一个删除标识, 标识就可以删除不需要的字段。之后 右侧提示框中“抓取以下数据”进行数据抓取。



放大看>>

5)打开右上角流程按钮,可以修改字段名称



放大看>>

6)修改以后, 右面“保存并启动”开始抓取



放大看>>

步骤4:数据抓取及导出

1) “启动本地抓取”。



放大看>>

2)这里我们选择excel作为导出为格式



放大看>>

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: