您的位置：首页 > 其它

Scrapy 学习笔记 - 第一个项目

2018-02-23 18:43 288 查看

参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2
因为我是在虚拟环境中安装的Scrapy，所以要先切换到虚拟环境cd Scrapyenv
source bin/activate创建一个项目scrapy startproject myfirst会在当前目录创建一些文件项目名/
scrapy.cfg #配置文件
项目名/
__init__.py
items.py #项目中的item文件 Item 是保存爬取到的数据的容器
pipelines.py
settings.py
spiders/ #放置爬虫代码的目录
__init__.py在spiders目录下，创建一个爬虫任务文件 myfirst_spider.py,并添加内容import scrapy
class myFirstSpider(scrapy.Spider):
name = "myFirst_Spider_Task" #任务名
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com",]

def parse(self, response):
print response.body

启动任务cd myfirst #这里是项目目录
scrapy crawl myFirst_Spider_Task #这里是任务名当然，结果不是预期的，因为百度设置了robots协议[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>忽略robots协议，需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Scrapy

相关文章推荐

新的分享

章节导航