您的位置:首页 > 其它

Scrapy 学习笔记 - 第一个项目

2018-02-23 18:43 288 查看
参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2
因为我是在虚拟环境中安装的Scrapy,所以要先切换到虚拟环境cd Scrapyenv
source bin/activate创建一个项目scrapy startproject myfirst会在当前目录创建一些文件项目名/
scrapy.cfg #配置文件
项目名/
__init__.py
items.py #项目中的item文件 Item 是保存爬取到的数据的容器
pipelines.py
settings.py
spiders/ #放置爬虫代码的目录
__init__.py在spiders目录下,创建一个爬虫任务文件 myfirst_spider.py,并添加内容import scrapy
class myFirstSpider(scrapy.Spider):
name = "myFirst_Spider_Task" #任务名
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com",]

def parse(self, response):
print response.body

启动任务cd myfirst #这里是项目目录
scrapy crawl myFirst_Spider_Task #这里是任务名当然,结果不是预期的,因为百度设置了robots协议[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>忽略robots协议,需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Scrapy