网页爬虫笔记——微博博主简介信息
2018-03-17 10:28
423 查看
本文演示使用八爪鱼使用7.0抓取微博博主信息的方法(以艺术分类为例)。。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:http://d.weibo.com/1087030002_2975_2024_0
使用功能点:
l 翻页元素设置 功能详情说明
l 列表内容提取 功能详情说明
新浪微博数据抓取说明:本文进行了新浪微博博主信息的抓取,本文仅以“新浪微博博主信息”为例,大家在实操过程中,可根据自身需求,更换新浪微博的其他内容进行数据抓取。
新浪微博数据抓取详细说明:微博博主名称,博主关注数量,博主粉丝数量,博主地址,博主个人简介,博主个人标签。
步骤1:创建抓取任务进入主界面选择,选择自定义模式
大图>>
将上面网址的网址复制粘贴到网站输入框中, “保存网址”
大图>>
保存网址后,页面将在抓取器中打开,红色方框中的信息是这次演示要抓取的内容
大图>>
步骤2:设置翻页步骤
l 创建翻页循环,设置翻页元素
页面下拉到底部,找到“下一页”按钮, 选择“循环 下一页”
大图>>
设置翻页步骤:打开流程图, “循环翻页”步骤,在右侧 “自定义”
大图>>
注意: 右上角的“流程”按钮,即可展现出可视化流程图。
如图选择好翻页 元素的xpath, “确定”,完成翻页步骤的设置
大图>>
步骤3:抓取博主信息
l 选中需要抓取列表中的信息框,创建数据提取列表
如图,移动鼠标选中博主信息栏,右键 ,选择“选中子元素”
大图>>
然后 “选中全部”
大图>>
注意: 鼠标 “X”,即可删除不需要字段。
大图>>
“抓取以下数据”
大图>>
修改抓取字段名称, 下方红色方框中的“保存并开始抓取”
大图>>
步骤4:数据抓取及导出根据抓取的情况选择合适的抓取方式,这里选择“启动本地抓取”
大图>>
说明:本地抓取占用当前电脑资源进行抓取,如果存在抓取时间要求或当前电脑无法长时间进行抓取可以使用云抓取功能,云抓取在网络中进行抓取,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你抓取,速度降低为原来的十分之一;抓取到的数据可以在云上保存三个月,可以随时进行导出操作。
抓取完成后,选择合适的导出方式,将抓取好的数据导出
大图>>
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
演示网址:http://d.weibo.com/1087030002_2975_2024_0
使用功能点:
l 翻页元素设置 功能详情说明
l 列表内容提取 功能详情说明
新浪微博数据抓取说明:本文进行了新浪微博博主信息的抓取,本文仅以“新浪微博博主信息”为例,大家在实操过程中,可根据自身需求,更换新浪微博的其他内容进行数据抓取。
新浪微博数据抓取详细说明:微博博主名称,博主关注数量,博主粉丝数量,博主地址,博主个人简介,博主个人标签。
步骤1:创建抓取任务进入主界面选择,选择自定义模式
大图>>
将上面网址的网址复制粘贴到网站输入框中, “保存网址”
大图>>
保存网址后,页面将在抓取器中打开,红色方框中的信息是这次演示要抓取的内容
大图>>
步骤2:设置翻页步骤
l 创建翻页循环,设置翻页元素
页面下拉到底部,找到“下一页”按钮, 选择“循环 下一页”
大图>>
设置翻页步骤:打开流程图, “循环翻页”步骤,在右侧 “自定义”
大图>>
注意: 右上角的“流程”按钮,即可展现出可视化流程图。
如图选择好翻页 元素的xpath, “确定”,完成翻页步骤的设置
大图>>
步骤3:抓取博主信息
l 选中需要抓取列表中的信息框,创建数据提取列表
如图,移动鼠标选中博主信息栏,右键 ,选择“选中子元素”
大图>>
然后 “选中全部”
大图>>
注意: 鼠标 “X”,即可删除不需要字段。
大图>>
“抓取以下数据”
大图>>
修改抓取字段名称, 下方红色方框中的“保存并开始抓取”
大图>>
步骤4:数据抓取及导出根据抓取的情况选择合适的抓取方式,这里选择“启动本地抓取”
大图>>
说明:本地抓取占用当前电脑资源进行抓取,如果存在抓取时间要求或当前电脑无法长时间进行抓取可以使用云抓取功能,云抓取在网络中进行抓取,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你抓取,速度降低为原来的十分之一;抓取到的数据可以在云上保存三个月,可以随时进行导出操作。
抓取完成后,选择合适的导出方式,将抓取好的数据导出
大图>>
文中用到的爬虫工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 新手学习网页爬虫之携程网旅游线路信息过程笔记
- 网页爬虫笔记——淘宝评论信息
- 鱼c笔记——Python爬虫(一):利用urllib进行简单的网页抓取
- node.js 学习笔记003 :使用superagent和cheerio实现简单网页爬虫
- 网页爬虫笔记——百度贴吧
- 鱼c笔记——Python爬虫(五):访问网页的异常处理
- Python爬虫入门之get网页信息并作为文本输出
- 网页爬虫实例:采集知乎话题信息
- 读书笔记--用Python写网络爬虫01--网络爬虫简介
- 爬取微博用户个人简介等信息
- Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息——Jason niu
- 用八爪鱼制作的亚马逊商品销售排行榜信息网页爬虫
- Python爬虫实现网页信息抓取功能示例【URL与正则模块】
- python学习笔记——提取网页中的信息正则表达式re
- 网页爬虫的一些笔记
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
- 黑马笔记4:LogCat简介、ContentProvider和内容观察者、获取图片exif信息
- Python爬虫笔记(2)根据目标信息解析数据和存储目标信息
- Python爬虫之抓取豆瓣信息 全部网页显示
- 爬虫学习笔记--爬取静态网页