您的位置：首页 > 编程语言 > Python开发

python爬虫实战小项目

2017-01-23 12:06 387 查看

本文所讲的爬虫实战属于基础、入门级别，使用的是python2.7实现的。

爬虫原理和思想

本项目实现的基本目标：在捧腹网中，把搞笑的图片都爬下来，注意不需要爬取头像的图片，同时，将图片命好名放在当前的img文件中。

爬虫原理和思想

爬虫，就是从网页中爬取自己所需要的东西，如文字、图片、视频等，这样，我们就需要读取网页，然后获取网页源代码，然后从源代码中用正则表达式进行匹配，最后把匹配成功的信息存入相关文档中。这就是爬虫的简单原理。

思想步骤：

读取网页并获取源代码，使用urllib.urlopen().read() ——> 使用正则表达式进行匹配，匹配图片的名称re.compile() re.findall() ——> 匹配图片地址——>将匹配的信息下载保存 urllib.urlretrieve()

爬虫涉及到额度基本知识

1 导入库/模块

import urllib ,re ,sys

注：该项目使用的是python的自带库，不需要另外下载

2 urllib.urlopen()的使用

该代码是用于读取网页

exp:

使用urllib.urlopen()打开捧腹网