您的位置:首页 > 其它

网页数据采集: 制作微博采集网页爬虫

2018-04-08 15:25 323 查看
收集新浪微博数据的方法,十分钟即可上手制作完成,抓取到的数据可以直接导入到数据库或网站。。

在开始之前,可以先参考一下这些资源,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录(含做好的35个爬虫规则)

文中以不需要代码的方法实现,使用到了八 爪鱼了解详情),只作为演示使用,替换成自己拿手的工具也一样的。

收集网站:
https://weibo.com/1875781361/
使用功能点:

l Ajax滚动加载设置

l 分页列表详情页内容提取

步骤1:创建收集任务

1)进入主界面选择,选择自定义模式



放大看>>

2)将上面网址的网址复制粘贴到网站输入框中,点选“保存网址”



放大看>>

3)保存网址后,页面将在收集器中打开,红色方框中的信息是这次演示要收集的内容



放大看>>

步骤2:设置ajax页面加载时间

l 设置打开网页步骤的ajax滚动加载时间

l 找到翻页按钮,设置翻页循环

l 设置翻页步骤ajax下拉加载时间

1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载



放大看>>

所以需要进行以下设置:打开流程图,点选“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点选确定



放大看>>

注意:这里的滚动次数及间隔需要针对网站进行设置,测试方法可以参考7.0教程——AJAX滚动教程

2)将页面下拉到底部,找到下一页按钮,鼠标点选,在右侧操作提示框中,

选择“循环点选下一页”



放大看>>

由于页面使用了ajax加载技术,当收集时候,网站总需要重新加载,所以对翻页步骤需进行上面打开网页步骤中的设置

步骤3:收集微博内容

l 选中需要收集的微博时间,创建循环点选列表

l 进入微博页创建收集列表

1)如图,移动鼠标选中列表中商家的名称,右键点选,需收集的内容会变成绿色

然后点选“选中全部”



放大看>>

注意:点选右上角的“流程”按钮,即可展现出可视化流程图。

2)然后点选“循环点选每个链接”



放大看>>

3)网页会跳转到详情页中,移动鼠标选中要收集的内容,右键点选,

选择“收集该链接的文本”



放大看>>

4)鼠标右键点选需要收集的文本字段,点选“选中全部”



放大看>>

注意: 鼠标放在提示框中的字段上会出现一个删除标识,点选即可删除该字段。



放大看>>

5)修改收集字段名称,点选下方红色方框中的“保存并开始收集”



放大看>>

步骤4:数据收集及导出

1)根据收集的情况选择合适的收集方式,这里选择“启动本地收集”



放大看>>

说明:本地收集占用当前电脑资源进行收集,如果存在收集时间要求或当前电脑无法长时间进行收集可以使用云收集功能,云收集在网络中进行收集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你收集,速度降低为原来的十分之一;收集到的数据可以在云上保存三个月,可以随时进行导出操作。

2)收集完成后,选择合适的导出方式,将收集好的数据导出



放大看>>

文中以不需要代码的方法实现,使用到了八 爪鱼了解详情),只作为演示使用,替换成自己拿手的工具也一样的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: