Python3 大型网络爬虫实战 — 给 scrapy 爬虫项目设置为防反爬
2016-12-06 00:09
886 查看
原博文链接:http://www.aobosir.com/blog/2016/12/06/python3-large-web-crawler-scrapy-project-Anti-reptile-settings/
Python 版本:python-3.5.0-amd64
PyCharm软件版本:pycharm-professional-2016.1.4
电脑系统:Windows 10 64位
如果你还没有搭建好开发环境,请到这篇博客。
所有的设置都是在scrapy爬虫项目中的
Step 1 . 设置爬虫不遵循
想要了解什么是
Step 2 . 设置取消Cookies
Cookies:
简单的说,Cookie就是服务器暂存放在你计算机上的一笔资料,好让服务器用来辨认你的计算机。当你在浏览网站的时候,Web服务器会先送一小小资料放在你的计算机上,Cookie 会帮你在网站上所打的文字或是一些选择,都记录下来。当下次你再光临同一个网站,Web服务器会先看看有没有它上次留下的Cookie资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。
Step 3 . 设置用户代理值(
这个 用户代理可以在浏览器里面找到:
随便浏览一个网页,按F12 -> Network -> F5,随便点击一项,你都能看到有 User-agent 这一项,将这里面的内容拷贝就可以。
Step 4 . 设置IP
对于这一步,如果你没有做什么违法的事情,可以不用设置。仅仅上面的三个步骤,就可以将那些具有反爬虫机制的网站可以正常爬取了。
请访问:http://www.aobosir.com/
开发环境
Python第三方库:lxml、Twisted、pywin32、scrapyPython 版本:python-3.5.0-amd64
PyCharm软件版本:pycharm-professional-2016.1.4
电脑系统:Windows 10 64位
如果你还没有搭建好开发环境,请到这篇博客。
所有的设置都是在scrapy爬虫项目中的
settings.py文件中进行设置。
Step 1 . 设置爬虫不遵循
robots.txt协议
# Obey robots.txt rules ROBOTSTXT_OBEY = False
想要了解什么是
robots.txt协议,请访问这篇博客:解析 robots.txt 文件。
Step 2 . 设置取消Cookies
# Disable cookies (enabled by default) COOKIES_ENABLED = False
Cookies:
简单的说,Cookie就是服务器暂存放在你计算机上的一笔资料,好让服务器用来辨认你的计算机。当你在浏览网站的时候,Web服务器会先送一小小资料放在你的计算机上,Cookie 会帮你在网站上所打的文字或是一些选择,都记录下来。当下次你再光临同一个网站,Web服务器会先看看有没有它上次留下的Cookie资料,有的话,就会依据Cookie里的内容来判断使用者,送出特定的网页内容给你。
Step 3 . 设置用户代理值(
USER_AGENT)
# Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = 'Mozilla/xxx (Windows xxx; Winxx; xxx) AppleWebKit/xxx (KHTML, like Gecko) Chrome/xxxx Safari/xxx'
这个 用户代理可以在浏览器里面找到:
随便浏览一个网页,按F12 -> Network -> F5,随便点击一项,你都能看到有 User-agent 这一项,将这里面的内容拷贝就可以。
Step 4 . 设置IP
对于这一步,如果你没有做什么违法的事情,可以不用设置。仅仅上面的三个步骤,就可以将那些具有反爬虫机制的网站可以正常爬取了。
请访问:http://www.aobosir.com/
相关文章推荐
- Python3 大型网络爬虫实战 002 --- scrapy 爬虫项目的创建及爬虫的创建 --- 实例:爬取百度标题和CSDN博客
- Python3 大型网络爬虫实战 004 — scrapy 大型静态商城网站爬虫项目编写及数据写入数据库实战 — 实战:爬取淘宝
- Python3 大型网络爬虫实战 003 — scrapy 大型静态图片网站爬虫项目实战 — 实战:爬取 169美女图片网 高清图片
- Python大型网络爬虫项目开发实战
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第2章 windows下搭建开发环境
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第5章 scrapy爬取知名问答网站(1)
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第1章 课程介绍
- Python3 大型网络爬虫实战 001 --- 搭建开发环境
- Python网络爬虫实战项目大全!
- Python3 大型网络爬虫实战 001 --- 搭建开发环境
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第4章 scrapy爬取知名技术文章网站(2)
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第5章 scrapy爬取知名问答网站(2)
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第3章 爬虫基础知识回顾
- 04精通Python网络爬虫——代理服务器的设置&DebuLog实战&URLError实战
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第4章 scrapy爬取知名技术文章网站(1)
- Python3网络爬虫:Scrapy入门实战之爬取动态网页图片
- python 网络爬虫开源框架scrapy
- 开源python网络爬虫框架Scrapy
- Python爬虫框架Scrapy实战之定向批量获取职位招聘信息
- 开源python网络爬虫框架Scrapy