您的位置:首页 > 编程语言 > Python开发

Python爬虫实战六之抓取爱问知识人问题并保存至数据库

2018-01-25 13:51 477 查看
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括:

Urllib的用法及异常处理
Beautiful Soup的简单应用
MySQLdb的基础用法
正则表达式的简单应用


环境配置

在这之前,我们需要先配置一下环境,我的Python的版本为2.7,需要额外安装的库有两个,一个是Beautiful Soup,一个是MySQLdb,在这里附上两个库的下载地址,

Beautiful
Soup MySQLdb

大家可以下载之后通过如下命令安装

1python setup.py install
环境配置好之后,我们便可以开心地撸爬虫了

框架思路

首先我们随便找一个分类地址,外语学习 – 爱问知识人,打开之后可以看到一系列的问题列表。我们在这个页面需要获取的东西有:总的页码数,每一页的所有问题链接。接下来我们需要遍历所有的问题,来抓取每一个详情页面,提取问题,问题内容,回答者,回答时间,回答内容。最后,我们需要把这些内容存储到数据库中。

要点简析

其实大部分内容相信大家会了前面的内容,这里的爬虫思路已经融汇贯通了,这里就说一下一些扩展的功能

1.日志输出

日志输出,我们要输出时间和爬取的状态,比如像下面这样:[2015-08-10 03:05:20] 113011 号问题存在其他答案 我个人认为应该是樱桃沟很美的[2015-08-10 03:05:20] 保存到数据库,此问题的ID为 113011[2015-08-10 03:05:20] 当前爬取第 2 的内容,发现一个问题 百度有一个地方,花儿带着芳香,水儿流淌奔腾是什么意思 多多帮忙哦 回答数量 1[2015-08-10 03:05:19] 保存到数据库,此问题的ID为 113010所以,我们需要引入时间函数,然后写一个获取当前时间的函数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: