您的位置：首页 > 其它

网页采集实践：配置百度文库文档爬虫（值得收藏）

2018-03-23 08:33 381 查看

本文演示无需代码可视化的方法快速抓取百度文库文档内容的方法。

在开始之前，可以先参考一下这些文章，希望有帮助：
小白30分钟学会网页爬虫
网页爬虫真实案例记录

文中用到的可视化爬虫制作工具（官网），只作为演示使用，实际应用中可以替换成自己拿手的工具或代码语言即可。

需要抓取百度内容的，在网页简易模式界面里百度进去之后可以看到所有关于百度的规则信息，我们直接使用就可以的。

放大看>>

抓取百度文库详情页信息（下图所示）即打开百度文库一个详细的文档页面抓取需要的目标数据

1、首先找到百度文库列表页数据然后立即使用

放大看>>

2、下图显示的即为简易模式里面百度文库详细页信息的规则

查看详情：点开可以看到示例网址

任务名：自定义任务名，默认为百度文库详情页信息

任务组：给任务划分一个保存任务的组，如果不设置会有一个默认组

演示网址：要抓取的文档地址，如果有多个则一行一个。

示例数据：这个规则抓取的所有字段信息

放大看>>

3、规则制作示例

例如抓取百度文库里面分类为学习计划下面的文库数据信息，网址为https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html 在设置里如下图所示：

任务名：自定义任务名，也可以不设置按照默认的就行

任务组：自定义任务组，也可以不设置按照默认的就行

演示网址：输入 https://wenku.baidu.com/view/8175732e26d3240c844769eae009581b6bd9bd1d.html，如果有多个，一行一个地址。
设置好之后保存