Python爬虫实战六之抓取爱问知识人问题并保存至数据库
2018-01-25 13:51
477 查看
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括:
Urllib的用法及异常处理
Beautiful Soup的简单应用
MySQLdb的基础用法
正则表达式的简单应用
在这之前,我们需要先配置一下环境,我的Python的版本为2.7,需要额外安装的库有两个,一个是Beautiful Soup,一个是MySQLdb,在这里附上两个库的下载地址,
Beautiful
Soup MySQLdb
大家可以下载之后通过如下命令安装
环境配置好之后,我们便可以开心地撸爬虫了
Urllib的用法及异常处理
Beautiful Soup的简单应用
MySQLdb的基础用法
正则表达式的简单应用
环境配置
在这之前,我们需要先配置一下环境,我的Python的版本为2.7,需要额外安装的库有两个,一个是Beautiful Soup,一个是MySQLdb,在这里附上两个库的下载地址,Beautiful
Soup MySQLdb
大家可以下载之后通过如下命令安装
1 | python setup.py install |
框架思路
首先我们随便找一个分类地址,外语学习 – 爱问知识人,打开之后可以看到一系列的问题列表。我们在这个页面需要获取的东西有:总的页码数,每一页的所有问题链接。接下来我们需要遍历所有的问题,来抓取每一个详情页面,提取问题,问题内容,回答者,回答时间,回答内容。最后,我们需要把这些内容存储到数据库中。要点简析
其实大部分内容相信大家会了前面的内容,这里的爬虫思路已经融汇贯通了,这里就说一下一些扩展的功能1.日志输出
日志输出,我们要输出时间和爬取的状态,比如像下面这样:[2015-08-10 03:05:20] 113011 号问题存在其他答案 我个人认为应该是樱桃沟很美的[2015-08-10 03:05:20] 保存到数据库,此问题的ID为 113011[2015-08-10 03:05:20] 当前爬取第 2 的内容,发现一个问题 百度有一个地方,花儿带着芳香,水儿流淌奔腾是什么意思 多多帮忙哦 回答数量 1[2015-08-10 03:05:19] 保存到数据库,此问题的ID为 113010所以,我们需要引入时间函数,然后写一个获取当前时间的函数相关文章推荐
- Python爬虫实战六之抓取爱问知识人问题并保存至数据库
- Python爬虫实战六之抓取爱问知识人问题并保存至数据库
- 芝麻HTTP:Python爬虫实战之抓取爱问知识人问题并保存至数据库
- Python爬虫实战:抓取并保存百度云资源(附代码)
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
- python爬虫实战(1)抓取网页图片自动保存
- Python爬虫实战一 | 抓取取校花网的所有妹子
- Python爬虫实战二 | 抓取小说网完结小说
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + urlretrieve 抓取并保存图片:weheartit
- Python爬虫实战一之使用Beautiful Soup抓取百度招聘信息并存储excel文件
- 用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
- Python3 爬虫实战(一)——爬取one每日一句,并保存到本地
- 【python爬虫】爬取知乎收藏夹内所有问题名称地址保存至Mysql
- Python爬虫:抓取Python教程保存为PDF电子书
- Python爬虫实战(4):抓取淘宝MM照片
- python制作爬虫并将抓取结果保存到excel中
- python 爬虫实战 抓取学校bbs相关板块的发帖信息
- python3爬虫 爬取图片,爬取新闻网站文章并保存到数据库
- Python爬虫实战:抓取淘宝MM照片