网页采集实践:配置百度文库文档爬虫(值得收藏)
2018-03-23 08:33
381 查看
本文演示无需代码可视化的方法快速抓取百度文库文档内容的方法。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
需要抓取百度内容的,在网页简易模式界面里 百度进去之后可以看到所有关于百度的规则信息,我们直接使用就可以的。
放大看>>
抓取百度文库详情页信息(下图所示)即打开百度文库一个详细的文档页面抓取需要的目标数据
1、首先找到百度文库列表页数据然后 立即使用
放大看>>
2、下图显示的即为简易模式里面百度文库详细页信息的规则
查看详情:点开可以看到示例网址
任务名:自定义任务名,默认为百度文库详情页信息
任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组
演示网址:要抓取的文档地址,如果有多个则一行一个。
示例数据:这个规则抓取的所有字段信息
放大看>>
3、规则制作示例
例如抓取百度文库里面分类为学习计划下面的文库数据信息,网址为https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html 在设置里如下图所示:
任务名:自定义任务名,也可以不设置按照默认的就行
任务组:自定义任务组,也可以不设置按照默认的就行
演示网址:输入 https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html,如果有多个,一行一个地址。
设置好之后 保存
放大看>>
保存之后会出现开始抓取的按钮
放大看>>
3、选择开始抓取之后系统将会弹出运行任务的界面
可以选择启动本地抓取(本地执行抓取流程)或者启动云抓取(由云 器执行抓取流程),这里以启动本地抓取为例,我们选择启动本地抓取按钮
放大看>>
5、选择本地抓取按钮之后,系统将会在本地执行这个抓取流程来抓取数据,下图为本地抓取的效果
放大看>>
6、抓取完毕之后选择导出数据按钮即可,这里以导出excel2007为例,选择这个选项之后 确定
放大看>>
7、然后选择文件存放在电脑上的路径,路径选择好之后选择保存
放大看>>
8、这样数据就被完整的导出到自己的电脑上来了哦
放大看>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
需要抓取百度内容的,在网页简易模式界面里 百度进去之后可以看到所有关于百度的规则信息,我们直接使用就可以的。
放大看>>
抓取百度文库详情页信息(下图所示)即打开百度文库一个详细的文档页面抓取需要的目标数据
1、首先找到百度文库列表页数据然后 立即使用
放大看>>
2、下图显示的即为简易模式里面百度文库详细页信息的规则
查看详情:点开可以看到示例网址
任务名:自定义任务名,默认为百度文库详情页信息
任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组
演示网址:要抓取的文档地址,如果有多个则一行一个。
示例数据:这个规则抓取的所有字段信息
放大看>>
3、规则制作示例
例如抓取百度文库里面分类为学习计划下面的文库数据信息,网址为https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html 在设置里如下图所示:
任务名:自定义任务名,也可以不设置按照默认的就行
任务组:自定义任务组,也可以不设置按照默认的就行
演示网址:输入 https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html,如果有多个,一行一个地址。
设置好之后 保存
放大看>>
保存之后会出现开始抓取的按钮
放大看>>
3、选择开始抓取之后系统将会弹出运行任务的界面
可以选择启动本地抓取(本地执行抓取流程)或者启动云抓取(由云 器执行抓取流程),这里以启动本地抓取为例,我们选择启动本地抓取按钮
放大看>>
5、选择本地抓取按钮之后,系统将会在本地执行这个抓取流程来抓取数据,下图为本地抓取的效果
放大看>>
6、抓取完毕之后选择导出数据按钮即可,这里以导出excel2007为例,选择这个选项之后 确定
放大看>>
7、然后选择文件存放在电脑上的路径,路径选择好之后选择保存
放大看>>
8、这样数据就被完整的导出到自己的电脑上来了哦
放大看>>
文中用到的可视化爬虫制作工具(官网),只作为演示使用,实际应用中可以替换成自己拿手的工具或代码语言即可。
相关文章推荐
- 网页采集实践:配置亚马逊商品信息爬虫(值得收藏)
- 网页采集实践:配置京东商品评论爬虫(值得收藏)
- 网页爬虫之新浪微博网页数据的采集规则配置方法
- 网页爬虫之58同城房屋出租信息的采集规则配置方法
- 网页爬虫之美团网的采集规则配置方法
- ActiveX控件打包成Cab置于网页中自动下载安装 (收藏未实践测试)
- Spring 总结用XML配置的十二个最佳实践 收藏
- Python爬虫实战(4):豆瓣小组话题数据采集―动态网页
- 30个值得收藏可免费搜索/下载PDF电子图书(文档)的搜索引擎
- 20个值得收藏的网页设计开放课件
- 20个值得收藏的网页设计开放课件
- 12种最常用的网页编程语言简介(值得收藏)
- ActiveX控件打包成Cab置于网页中自动下载安装 (收藏未实践测试)
- 采集上万,百万的网页内容网址-php采集网页-php爬虫视频教程5
- QT与QT Creator的独立安装与配置 分类: QT学习实践 2015-04-29 23:20 40人阅读 评论(0) 收藏
- 值得网页设计师&前端收藏的实用工具列表
- Linux企业级项目实践之网络爬虫(30)——通过查阅RFC文档扩充更加复杂的功能
- post方式采集网页数据-php采集网页-php爬虫视频教程7
- 网页数据采集: 制作百度贴吧网页爬虫