Scrapy 学习笔记 - 第一个项目
2018-02-23 18:43
288 查看
参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2
因为我是在虚拟环境中安装的Scrapy,所以要先切换到虚拟环境cd Scrapyenv
source bin/activate创建一个项目scrapy startproject myfirst会在当前目录创建一些文件项目名/
scrapy.cfg #配置文件
项目名/
__init__.py
items.py #项目中的item文件 Item 是保存爬取到的数据的容器
pipelines.py
settings.py
spiders/ #放置爬虫代码的目录
__init__.py在spiders目录下,创建一个爬虫任务文件 myfirst_spider.py,并添加内容import scrapy
class myFirstSpider(scrapy.Spider):
name = "myFirst_Spider_Task" #任务名
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com",]
def parse(self, response):
print response.body
启动任务cd myfirst #这里是项目目录
scrapy crawl myFirst_Spider_Task #这里是任务名当然,结果不是预期的,因为百度设置了robots协议[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>忽略robots协议,需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。
因为我是在虚拟环境中安装的Scrapy,所以要先切换到虚拟环境cd Scrapyenv
source bin/activate创建一个项目scrapy startproject myfirst会在当前目录创建一些文件项目名/
scrapy.cfg #配置文件
项目名/
__init__.py
items.py #项目中的item文件 Item 是保存爬取到的数据的容器
pipelines.py
settings.py
spiders/ #放置爬虫代码的目录
__init__.py在spiders目录下,创建一个爬虫任务文件 myfirst_spider.py,并添加内容import scrapy
class myFirstSpider(scrapy.Spider):
name = "myFirst_Spider_Task" #任务名
allowed_domains = ["baidu.com"]
start_urls = ["http://www.baidu.com",]
def parse(self, response):
print response.body
启动任务cd myfirst #这里是项目目录
scrapy crawl myFirst_Spider_Task #这里是任务名当然,结果不是预期的,因为百度设置了robots协议[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>忽略robots协议,需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。
相关文章推荐
- C++学习笔记1C++开发环境搭建创建第一个项目Hello word!
- Scrapy 入门学习笔记(1) -- Scrapy 项目搭建与架构介绍
- ODL学习笔记(二)OpenDayLight的第一个项目-Hello World
- java web第一个项目学习笔记
- Spring 3.0学习笔记1(第一个SpringMVC项目)
- ios学习笔记(一)xcode 4.3.2下创建第一个ios项目
- Maven学习笔记第一节(第一个项目)
- ios学习笔记(一)xcode 4.3.2下创建第一个ios项目
- Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
- 构建第一个Android项目 (学习笔记二)
- java学习笔记(一):开始第一个java项目
- Unity学习笔记(二)——第一个Unity项目Hello Unity
- Unity学习笔记(二)——第一个Unity项目Hello Unity
- 【Android笔记】学习分析第一个分析Android项目
- API Demos 2.3 学习笔记 (2)--创建第一个Android项目(Hello World!)
- Scrapy框架学习(一)----Scrapy介绍及第一个项目
- python+Django+pycharm+mysql 环境搭建及第一个项目学习笔记
- WIX 学习笔记 - 2 第一个WIX 项目 HelloWIX
- Cocos2dx 学习笔记整理----第一个项目
- 开源项目Coding学习笔记(1):EaseStartView --- 第一个界面