您的位置:首页 > 其它

网页爬虫笔记——微博博主简介信息

2018-03-17 10:28 423 查看
本文演示使用八爪鱼使用7.0抓取微博博主信息的方法(以艺术分类为例)。。

在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。

演示网址:http://d.weibo.com/1087030002_2975_2024_0

使用功能点:

l 翻页元素设置  功能详情说明

l 列表内容提取  功能详情说明

新浪微博数据抓取说明:本文进行了新浪微博博主信息的抓取,本文仅以“新浪微博博主信息”为例,大家在实操过程中,可根据自身需求,更换新浪微博的其他内容进行数据抓取。

新浪微博数据抓取详细说明:微博博主名称,博主关注数量,博主粉丝数量,博主地址,博主个人简介,博主个人标签。

步骤1:创建抓取任务进入主界面选择,选择自定义模式



大图>>

将上面网址的网址复制粘贴到网站输入框中, “保存网址”



大图>>

保存网址后,页面将在抓取器中打开,红色方框中的信息是这次演示要抓取的内容



大图>>

步骤2:设置翻页步骤

l 创建翻页循环,设置翻页元素

页面下拉到底部,找到“下一页”按钮, 选择“循环 下一页”



大图>>

设置翻页步骤:打开流程图, “循环翻页”步骤,在右侧 “自定义”



大图>>

注意: 右上角的“流程”按钮,即可展现出可视化流程图。

如图选择好翻页 元素的xpath, “确定”,完成翻页步骤的设置



大图>>

步骤3:抓取博主信息

l 选中需要抓取列表中的信息框,创建数据提取列表

如图,移动鼠标选中博主信息栏,右键 ,选择“选中子元素”



大图>>

然后 “选中全部”



大图>>

注意: 鼠标 “X”,即可删除不需要字段。



大图>>

“抓取以下数据”



大图>>

修改抓取字段名称, 下方红色方框中的“保存并开始抓取”



大图>>

步骤4:数据抓取及导出根据抓取的情况选择合适的抓取方式,这里选择“启动本地抓取”



大图>>

说明:本地抓取占用当前电脑资源进行抓取,如果存在抓取时间要求或当前电脑无法长时间进行抓取可以使用云抓取功能,云抓取在网络中进行抓取,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你抓取,速度降低为原来的十分之一;抓取到的数据可以在云上保存三个月,可以随时进行导出操作。

抓取完成后,选择合适的导出方式,将抓取好的数据导出



大图>>

文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: