网页爬虫之美团网的采集规则配置方法
2018-03-11 10:14
281 查看
介绍美团商铺数据收集的方法。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(八爪鱼),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
使用功能点:
l Ajax滚动加载设置
l 分页列表内容提取
步骤1:创建收集任务
1)进入主界面选择,选择自定义模式
清晰原图>>
2)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”
清晰原图>>
3)保存网址后,页面将在八爪鱼收集器中打开,红色方框中的信息是这次演示要收集的内容
清晰原图>>
步骤2:设置ajax页面加载时间
l 设置打开网页步骤的ajax滚动加载时间
l 找到翻页按钮,设置翻页循环
l 设置翻页步骤ajax下拉加载时间
1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载(具体参考八爪鱼7.0教程——AJAX滚动教程)
清晰原图>>
清晰原图>>
所以需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定
清晰原图>>
注意:这里的滚动次数及间隔需要针对网站进行设置,测试方法可以参考八爪鱼7.0教程——AJAX滚动教程
2)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,
选择“循环点击下一页”
清晰原图>>
由于页面使用了ajax加载技术,当收集时候,网站总需要重新加载,所以对翻页步骤需进行上面打开网页步骤中的设置
步骤3:商家信息收集
l 选中需要收集的字段信息,创建收集列表
l 编辑收集字段名称
1)如图,移动鼠标选中列表中商家的名称,右键点击,需收集的内容会变成绿色
清晰原图>>
2)移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中全部”
清晰原图>>
注意: 鼠标放在提示框中的字段上会出现一个删除标识,点击即可删除该字段。
清晰原图>>
3)点击“收集以下数据”
清晰原图>>
4)修改收集字段名,并点击下方提示中的“保存并开始收集”
清晰原图>>
步骤4:数据收集及导出
1)根据收集的情况选择合适的收集方式,这里选择“启动本地收集”
清晰原图>>
说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)收集完成后,选择合适的导出方式,将收集好的数据导出
清晰原图>>
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(八爪鱼),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
使用功能点:
l Ajax滚动加载设置
l 分页列表内容提取
步骤1:创建收集任务
1)进入主界面选择,选择自定义模式
清晰原图>>
2)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”
清晰原图>>
3)保存网址后,页面将在八爪鱼收集器中打开,红色方框中的信息是这次演示要收集的内容
清晰原图>>
步骤2:设置ajax页面加载时间
l 设置打开网页步骤的ajax滚动加载时间
l 找到翻页按钮,设置翻页循环
l 设置翻页步骤ajax下拉加载时间
1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载(具体参考八爪鱼7.0教程——AJAX滚动教程)
清晰原图>>
清晰原图>>
所以需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定
清晰原图>>
注意:这里的滚动次数及间隔需要针对网站进行设置,测试方法可以参考八爪鱼7.0教程——AJAX滚动教程
2)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,
选择“循环点击下一页”
清晰原图>>
由于页面使用了ajax加载技术,当收集时候,网站总需要重新加载,所以对翻页步骤需进行上面打开网页步骤中的设置
步骤3:商家信息收集
l 选中需要收集的字段信息,创建收集列表
l 编辑收集字段名称
1)如图,移动鼠标选中列表中商家的名称,右键点击,需收集的内容会变成绿色
清晰原图>>
2)移动鼠标选中红色方框里任意文本字段后,列表中所有适配内容会变成绿色,在右侧操作提示框中,查看提取的字段,可以将不需要的字段删除,然后点击“选中全部”
清晰原图>>
注意: 鼠标放在提示框中的字段上会出现一个删除标识,点击即可删除该字段。
清晰原图>>
3)点击“收集以下数据”
清晰原图>>
4)修改收集字段名,并点击下方提示中的“保存并开始收集”
清晰原图>>
步骤4:数据收集及导出
1)根据收集的情况选择合适的收集方式,这里选择“启动本地收集”
清晰原图>>
说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)收集完成后,选择合适的导出方式,将收集好的数据导出
清晰原图>>
相关文章推荐
- 网页爬虫之新浪微博网页数据的采集规则配置方法
- 网页爬虫之58同城房屋出租信息的采集规则配置方法
- 网页采集实践:配置百度文库文档爬虫(值得收藏)
- 网页采集实践:配置亚马逊商品信息爬虫(值得收藏)
- 网页采集实践:配置京东商品评论爬虫(值得收藏)
- 凶猛的网页内容抓取规则配置工具
- asp.net采集网页图片的具体方法
- .net采集网页方法大全(5种)
- 使用phpQuery采集网页的方法
- 织梦CMS采集时keywords字段无法添加过滤规则的解决方法
- urllib2下载网页的三种方法_Python爬虫
- [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [三] 模型配置方式实现爬虫
- Nginx中配置过滤爬虫的User-Agent的简单方法
- post方式采集网页数据-php采集网页-php爬虫视频教程7
- 史林枫:开源HtmlAgilityPack公共小类库封装 - 网页采集(爬虫)辅助解析利器【附源码+可视化工具推荐】
- 防止网页被搜索引擎爬虫和网页采集器收录的方法汇总
- 网页爬虫之cookie自动获取及过期自动更新的实现方法
- python3.4.4实现网页爬虫基础之网页下载器三种方法
- Ubuntu+django+apache下配置网页错误OperationalError: Unable to Open Database File 的解决方法
- php采集环境wamp搭建-php采集网页-php爬虫视频教程1