您的位置:首页 > 其它

新手学习网页爬虫之携程网旅游线路信息过程笔记

2018-03-22 08:59 1321 查看
本文演示无需代码可视化的方法如何抓取和抓取携程网旅游线路信息。。

在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

演示网址:http://weekend.ctrip.com/around/shenzhen/taocan/st1216

使用功能点:

l 分页列表及详细信息提取

携程网抓取详细抓取字段说明:携程短途游路线、携程短途游 、景点、可选酒店、天数。

步骤1:创建抓取任务

1)进入主界面,选择“自定义模式”



放大看>>

2)将要抓取的网址复制粘贴到网站输入框中, “保存网址”



放大看>>

步骤2:创建翻页循环

1)将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”



放大看>>

步骤3:创建列表循环

1)移动鼠标,选中页面里的第一条旅游线路的链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”



放大看>>

2)选择“循环 每个链接”,以创建一个列表循环



放大看>>

步骤4:提取旅游线路信息

1)在创建列表循环后,系统会自动 第一个旅游线路的链接,进入旅游线路详情页。 需要的字段信息,在右侧的操作提示框中,选择“抓取该元素的文本”



放大看>>

2)继续 要抓取的字段,选择“抓取该元素的文本”。抓取的字段会自动添加到上方的数据编辑框中。选中相应的字段,可以进行字段的自定义命名。自定义命名完成后, “保存并开始抓取”



放大看>>

3)选择“启动本地抓取”



放大看>>

步骤5:数据抓取及导出

1)抓取完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将抓取好的数据导出



放大看>>

2)这里我们选择excel作为导出为格式,数据导出后如下图



放大看>>

携程网:携程是一个在线票务  ,创立于1999年, 设在  。携程旅行网拥有国内外六十余万家会员酒店可供预订,是 领先的酒店预订 中心。

数据说明:本文进行了携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取。本文仅以“携程网-深圳周末游-深圳周末短途游报价列表下的所有旅游信息抓取”为例。大家在实操过程中,可根据自身需求,更换携程网的分类进行数据抓取。

文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: