您的位置:首页 > 其它

通过安居客全部楼盘信息采集为例讲解八爪鱼(必看)

2018-03-18 13:52 645 查看
本文演示使用八爪鱼使用抓取安居客-深圳-新房-全部 的方法。。

在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
分享:35个做好的爬虫规则+160篇图文教程汇总

文中用到的爬虫工具官网,只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
安居客 信息抓取数据说明:本文进行了安居客-深圳新房-全部 信息的抓取。本文仅以“安居客-深圳新房-全部 信息抓取”为例,大家在实操过程中,可根据自身需求,更换安居客的其他内容进行数据抓取。
安居客 信息抓取详细说明: 名称, 户型, 地址, 建筑面积,  状态, 参考 ,  , 周边环境。

步骤1:创建抓取任务
1)进入主界面,选择“自定义模式”



大图>>

2)将要抓取的网址复制粘贴到网站输入框中, “保存网址”



大图>>

步骤2:创建翻页循环
1)将页面下拉到底部, “下一页”按钮,在右侧的操作提示框中,选择“循环 下一页”



大图>>

步骤3:创建列表循环并提取数据
1)移动鼠标,选中页面里的第一个 信息区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”



大图>>

2)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环



大图>>

3)我们可以看到,页面中 信息区块里的所有元素均被选中,变为绿色。右侧操作提示框中,出现字段预览表,将鼠标移到表头,  桶图标,可删除不需要的字段。字段选择完成后,选择“抓取以下数据”



大图>>

4)字段选择完成后,选中相应的字段,可以进行字段的自定义命名。完成后, 左上角的“保存并启动”,启动抓取任务



大图>>

5)选择“启动本地抓取”



大图>>

步骤4:数据抓取及导出
1)抓取完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将抓取好的数据导出



大图>>

2)这里我们选择excel作为导出为格式,数据导出后如下图



大图>>

文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐