网页数据采集: 制作京东关键词网页爬虫
2018-03-13 09:37
465 查看
本文演示使用八爪鱼收集京东下拉框关键词(以鼠标等为例)的方法,京东下拉框关键词是比较常见的一种挖词方法,一般来说能展现在下拉框中的关键词搜索量都比较大,这样有助于京东卖家进行优化商品标题或者数据分析等。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(八爪鱼),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
收集网站:
https://diannao.jd.com/
本文仅以鼠标、键盘、U盘三个关键词举例说明,大家在收集京东关键词的时候,可以更换搜索关键词进行收集。
使用功能点:
l 文本循环
l Ajax点击
步骤1:创建京东关键词收集任务
1)进入主界面,选择“自定义收集”
清晰原图>>
京东关键词收集步骤1
2)将要收集的网址URL复制粘贴到网站输入框中,点击“保存网址”
清晰原图>>
京东关键词收集步骤2
步骤2:创建文本循环
1)打开网页之后,打开右上角的流程按钮,从左边的流程展示界面拖入一个循环的步骤,如下图
清晰原图>>
京东关键词收集步骤3
然后打开高级选项,在循环方式中选择文本列表,在列表下拉框中输入鼠标、键盘、U盘(可以按照自己需求更换关键词)并用回车键隔开。最后选择“确定”。
清晰原图>>
京东关键词收集步骤4
2)接着鼠标选中输入框,在右面的提示框中选择“输入文字”
清晰原图>>
京东关键词收集步骤5
3)接着在弹出的输入框中选择“确定”,不用输入文本。
清晰原图>>
京东关键词收集步骤6
然后在左边的流程中把“输入文本”拖到循环框中
”
清晰原图>>
京东关键词收集步骤7
之后,在右边的高级选相中勾选使用当前循环里的文本填充输入框。选择“确定”。
清晰原图>>
京东关键词收集步骤8
步骤3:提取关键词
1)鼠标选中输入框中的词,然后在右面的提示框中选择“鼠标移动到该元素上”
清晰原图>>
京东关键词收集步骤9
2)此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“5秒”。完成后,点击“确定”
清晰原图>>
京东关键词收集步骤10
再选择“选中全部”
清晰原图>>
京东关键词收集步骤11
3)最后选择“收集以下元素文本”
清晰原图>>
京东关键词收集步骤12
4)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
清晰原图>>
京东关键词收集步骤13
步骤4:数据收集及导出
1)点击左上角的“保存”,然后点击“开始收集”。
清晰原图>>
京东关键词收集步骤14
选择“启动本地收集”
清晰原图>>
京东关键词收集步骤15
2)收集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将收集好的数据导出, 这里我们选择excel作为导出为格式,这个时候京东下拉关键词数据就导出来了,数据导出后如下图
清晰原图>>
京东关键词收集步骤16
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(八爪鱼),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
收集网站:
https://diannao.jd.com/
本文仅以鼠标、键盘、U盘三个关键词举例说明,大家在收集京东关键词的时候,可以更换搜索关键词进行收集。
使用功能点:
l 文本循环
l Ajax点击
步骤1:创建京东关键词收集任务
1)进入主界面,选择“自定义收集”
清晰原图>>
京东关键词收集步骤1
2)将要收集的网址URL复制粘贴到网站输入框中,点击“保存网址”
清晰原图>>
京东关键词收集步骤2
步骤2:创建文本循环
1)打开网页之后,打开右上角的流程按钮,从左边的流程展示界面拖入一个循环的步骤,如下图
清晰原图>>
京东关键词收集步骤3
然后打开高级选项,在循环方式中选择文本列表,在列表下拉框中输入鼠标、键盘、U盘(可以按照自己需求更换关键词)并用回车键隔开。最后选择“确定”。
清晰原图>>
京东关键词收集步骤4
2)接着鼠标选中输入框,在右面的提示框中选择“输入文字”
清晰原图>>
京东关键词收集步骤5
3)接着在弹出的输入框中选择“确定”,不用输入文本。
清晰原图>>
京东关键词收集步骤6
然后在左边的流程中把“输入文本”拖到循环框中
”
清晰原图>>
京东关键词收集步骤7
之后,在右边的高级选相中勾选使用当前循环里的文本填充输入框。选择“确定”。
清晰原图>>
京东关键词收集步骤8
步骤3:提取关键词
1)鼠标选中输入框中的词,然后在右面的提示框中选择“鼠标移动到该元素上”
清晰原图>>
京东关键词收集步骤9
2)此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“5秒”。完成后,点击“确定”
清晰原图>>
京东关键词收集步骤10
再选择“选中全部”
清晰原图>>
京东关键词收集步骤11
3)最后选择“收集以下元素文本”
清晰原图>>
京东关键词收集步骤12
4)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
清晰原图>>
京东关键词收集步骤13
步骤4:数据收集及导出
1)点击左上角的“保存”,然后点击“开始收集”。
清晰原图>>
京东关键词收集步骤14
选择“启动本地收集”
清晰原图>>
京东关键词收集步骤15
2)收集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将收集好的数据导出, 这里我们选择excel作为导出为格式,这个时候京东下拉关键词数据就导出来了,数据导出后如下图
清晰原图>>
京东关键词收集步骤16
相关文章推荐
- 网页数据采集: 制作Amazon亚马逊网商品评论网页爬虫
- 网页数据采集: 制作百度贴吧网页爬虫
- 网页数据采集: 制作微博采集网页爬虫
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- Python爬虫——H5棋牌牛牛制作数据采集
- 最基本的网页爬虫(数据采集)
- 网页爬虫技术之京东商品采集教程图解
- Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
- post方式采集网页数据-php采集网页-php爬虫视频教程7
- 网页数据采集爬虫研究
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- 网页采集实践:配置京东商品评论爬虫(值得收藏)
- php多线程采集网页数据-php采集网页-php爬虫视频教程8
- 【学习】03 淘宝爬虫-使用selenium采集关键词为电动车的数据
- 网页爬虫技术之美团商家评论数据采集教程图解
- 使用网页爬虫(高级搜索功能)搜集含关键词新浪微博数据
- 网页爬虫之新浪微博网页数据的采集规则配置方法
- Python爬虫实战(4):豆瓣小组话题数据采集―动态网页
- 最基本的网页爬虫(数据采集)