您的位置:首页 > 理论基础 > 计算机网络

Python3.4 + Scrapy 网络爬虫

2016-09-05 00:00 246 查看

Scrapy介绍

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。
Scrapy 使用 Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。



1.安装(Scrapy1.1以上版本已经兼容python3)

pip install scrapy 或者 pip install scrapy -i http://pypi.douban.com/simple/ (豆瓣python源)

备注:安装VS2010需要pro版本,只选择安装VS2010 C++即可。



安装twisted成功,那基本安装Scrapy就没问题的。



2.Scrapy大概了解

Scrapy主要包括了以下组件:

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架,主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概如下:

引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器

下载器把资源下载下来,并封装成应答包(Response)

爬虫解析Response

解析出实体(Item),则交给实体管道进行进一步的处理

解析出的是链接(URL),则把URL交给调度器等待抓取

3.第一个爬虫项目

1.创建项目:scrapy startproject p1(your_project_name)



spiders文件夹内新建一个p1_spider.py

# -*- coding:utf-8 -*-
import scrapy

class DMSpider(scrapy.spiders.Spider):
name = "dm10086"
allowed_domains = ["http://dm.10086.cn/cy/web3"]
start_urls = [
"http://dm.10086.cn/cy/web3",
]

def parse(self, response):
# print(response, type(response))
# from scrapy.http.response.html import HtmlResponse
# print(response.body_as_unicode())

current_url = response.url #爬取时请求的url
body = response.body #返回的html
unicode_body = response.body_as_unicode()#返回的html unicode编码

2.项目根目录下执行:scrapy crawl p1 --nolog(不显示日志)不报错即是通过了



4.进入命令行模式scrapy shell

>>>scrapy shell "www.baid.com"



当shell载入后,您将得到一个包含response数据的本地
response
变量。输入
response.body
将输出response的包体, 输出
response.headers
可以看到response的包头。

更为重要的是,当输入
response.selector
时, 您将获取到一个可以用于查询返回数据的selector(选择器), 以及映射到
response.selector.xpath()
response.selector.css()
的 快捷方法(shortcut):
response.xpath()
response.css()


让我们来试试效果:

response.xpath('//title')
response.xpath('//title').extract()
response.xpath('//title/text()')
response.xpath('//title/text()').extract()
response.xpath('//title/text()').re('(\w+):')



在自己的Spider中写入这段代码,然后执行。

import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]

def parse(self, response):
for sel in response.xpath('//ul/li'):
title = response.xpath('a/text()').extract()
link = response.xpath('a/@href').extract()
desc = response.xpath('text()').extract()
print(title, link, desc)

5.Items ---- 定义爬取的数据 / Spiders---- 编写爬取网站的规则

5.1Item 是保存爬取到的数据的容器;

爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供
Item
类来满足这样的需求。
Item
对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。

类似在ORM中做的一样,您可以通过创建一个
scrapy.Item
类, 并且定义类型为
scrapy.Field
的类属性来定义一个Item。 (如果不了解ORM, 不用担心,您会发现这个步骤非常简单)

首先根据需要从dmoz.org获取到的数据对item进行建模。 我们需要从dmoz中获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。编辑
tutorial
目录中的
items.py
文件:

import scrapy

class DmozItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()


5.2 Spider类定义了如何爬取某个(或某些)网站。

包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。

一般来说,Spider将会将爬取到的数据以
Item
对象返回。所以为了将爬取的数据返回,我们最终的代码将是:

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]

def parse(self, response):
for sel in response.xpath('//ul/li'):
item = DmozItem()
item['title'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
item['desc'] = sel.xpath('text()').extract()
yield item


备注:遇到异常及处理

问题1
报错:import win32api
ImportError: No module named 'win32api'
解决:
pip install pypixin32



查看安装版本



学习参考:http://www.cnblogs.com/cutd/p/6208861.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: