基于python的-反反爬虫手段
2018-03-06 20:37
239 查看
# -*- coding:utf-8 -*- import requests # 抓包工具 # charles # fiddler # 参数1: url,填网址 # 参数2: params,网址后需要添加的参数 # 参数3: **kwargs,不定长键值对参数,一般key=value # 在参数3中,headers={}, # cookies={} 或者cookieJar # timeout=小数或者元祖 response = requests.get("http://www.baidu.com", headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"}) print("响应头",response.headers) print("响应数据",response.content) print("响应行中的状态码",response.status_code) print("响应行中的短语",response.reason) # 反爬虫的手段之一: # 通过请求的User-Agent字段来判断你是不是一个爬虫 # 反反爬虫的手段之一: # 通过修改请求头的User-Agent字段来突破反爬虫的手段 """ 爬虫程序 服务器 编写爬虫代码,发起请求,接收响应,爬取数据------------>监控到某个时间段,访问量突然增大,冰球发起请求的ip地址相同,对User-Agent字段判断 在发起请求时,添加User-Agent字段,模仿用户代理------->检测到某个ip访问速率过高,限制访问频率 在发请求时,使用代理ip,设置请求时间间隔------------->需要登录后才能获取数据 注册网站账号,模拟cookie/token登录,发起请求--------->健全账号体系,只有相互关注的好友才能访问 注册多个账户,进行爬虫----------------------------->发现请求过于频繁,弹出验证码 使用云打码平台进行验证----------------------------->增加动态页面,比较重要的数据,使用Js发起请求动态加载 1.抓取Js骑牛,模拟发送 2.selenium完全模拟用户行为,操作网页----------------> 放弃 """
相关文章推荐
- [原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍
- 基于python Scrapy的爬虫——爬取某网站新闻内容
- 基于python 爬虫爬到含空格的url的处理方法
- 基于scrapy爬虫的天气数据采集(python)
- 基于Python实现的爬虫源码(1)
- 基于Python的网络爬虫
- Python在Windows系统下基于Scrapyd部署爬虫项目(本地部署)
- 基于Python+scrapy+redis的分布式爬虫实现框架
- 基于python2.7的爬虫入门教程
- 基于正则表达式(python)对东方财富网上证指数吧爬虫实例
- Window环境下安装基于Python的Scrapy网络爬虫框架
- 基于python的爬虫---自顶向下的设计思想
- 基于python利用爬虫爬取网页教程
- 一个基于python的数据爬虫
- 基于Python的实时爬虫每小时PM2.5等污染物数据
- python爬虫进阶(九):基于Page Rank的顺序调整
- Python爬虫-基于深度优先策略的百度百科爬虫
- python——爬虫学习——基于bs4库的HTML内容查找方法-(3)
- 基于Python的urllib2模块的多线程网络爬虫程序
- 使用Python编写基于DHT协议的BT资源爬虫