新手学习网页爬虫之携程网旅游线路信息过程笔记
2018-03-22 08:59
1321 查看
本文演示无需代码可视化的方法如何抓取和抓取携程网旅游线路信息。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:http://weekend.ctrip.com/around/shenzhen/taocan/st1216
使用功能点:
l 分页列表及详细信息提取
携程网抓取详细抓取字段说明:携程短途游路线、携程短途游 、景点、可选酒店、天数。
步骤1:创建抓取任务
1)进入主界面,选择“自定义模式”
放大看>>
2)将要抓取的网址复制粘贴到网站输入框中, “保存网址”
放大看>>
步骤2:创建翻页循环
1)将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”
放大看>>
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条旅游线路的链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”
放大看>>
2)选择“循环 每个链接”,以创建一个列表循环
放大看>>
步骤4:提取旅游线路信息
1)在创建列表循环后,系统会自动 第一个旅游线路的链接,进入旅游线路详情页。 需要的字段信息,在右侧的操作提示框中,选择“抓取该元素的文本”
放大看>>
2)继续 要抓取的字段,选择“抓取该元素的文本”。抓取的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始抓取”
放大看>>
3)选择“启动本地抓取”
放大看>>
步骤5:数据抓取及导出
1)抓取完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将抓取好的数据导出
放大看>>
2)这里我们选择excel作为导出为格式,数据导出后如下图
放大看>>
携程网:携程是一个在线票务 ,创立于1999年, 设在 。携程旅行网拥有国内外六十余万家会员酒店可供预订,是 领先的酒店预订 中心。
数据说明:本文进行了携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取。本文仅以“携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取”为例。大家在实操过程中,可根据自身需求,更换携程网的分类进行数据抓取。
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:http://weekend.ctrip.com/around/shenzhen/taocan/st1216
使用功能点:
l 分页列表及详细信息提取
携程网抓取详细抓取字段说明:携程短途游路线、携程短途游 、景点、可选酒店、天数。
步骤1:创建抓取任务
1)进入主界面,选择“自定义模式”
放大看>>
2)将要抓取的网址复制粘贴到网站输入框中, “保存网址”
放大看>>
步骤2:创建翻页循环
1)将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”
放大看>>
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一条旅游线路的链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”
放大看>>
2)选择“循环 每个链接”,以创建一个列表循环
放大看>>
步骤4:提取旅游线路信息
1)在创建列表循环后,系统会自动 第一个旅游线路的链接,进入旅游线路详情页。 需要的字段信息,在右侧的操作提示框中,选择“抓取该元素的文本”
放大看>>
2)继续 要抓取的字段,选择“抓取该元素的文本”。抓取的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始抓取”
放大看>>
3)选择“启动本地抓取”
放大看>>
步骤5:数据抓取及导出
1)抓取完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将抓取好的数据导出
放大看>>
2)这里我们选择excel作为导出为格式,数据导出后如下图
放大看>>
携程网:携程是一个在线票务 ,创立于1999年, 设在 。携程旅行网拥有国内外六十余万家会员酒店可供预订,是 领先的酒店预订 中心。
数据说明:本文进行了携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取。本文仅以“携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取”为例。大家在实操过程中,可根据自身需求,更换携程网的分类进行数据抓取。
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 新手学习网页爬虫天猫商品技巧汇总
- 【极客学院】-python学习笔记-4-单线程爬虫 (提交表单抓取信息,实战练习)
- 5、TX2学习笔记--新手上手NVIDIA Jetson TX2--Jetpack 3.0 安装过程
- Python3.x 爬虫学习笔记——判断网页的编码方式
- python学习笔记——提取网页中的信息正则表达式re
- 爬虫学习笔记--爬取静态网页
- Python爬虫学习笔记一:简单网页图片抓取
- node.js 学习笔记003 :使用superagent和cheerio实现简单网页爬虫
- Python抓取离线网页信息_学习笔记_1
- 谈新手web开发的学习过程之网页设计
- C#网页爬虫学习笔记(1)
- #舍得Share#php开发笔记-使用curl查看网页源码/自动跳转/显示头信息/显示通信过程/发送表单信息/文件上传/Referer字段/User Agent
- 【极客学院】-python学习笔记-3-单线程爬虫 (request安装遇到问题及解决,应用requests提取信息)
- 网页爬虫笔记——微博博主简介信息
- 网页爬虫笔记——淘宝评论信息
- Python爬虫学习笔记二:百度贴吧网页图片抓取
- SAP BW创建信息立方体创建的基本过程——视频学习笔记
- 爬虫学习一 : 打开特定网页获取信息
- 韩顺平_轻松搞定网页设计(html+css+javascript)_第26讲_js函数调用过程内存分析_js函数细节_学习笔记_源代码图解_PPT文档整理
- 编写爬取糗事百科信息爬虫代码学习笔记