python爬虫之使用fake_usragent随机更换User_Agent
2019-03-09 11:53
387 查看
版权声明:本文为博主原创,转载请注明出处,谢谢! https://blog.csdn.net/qq_35531549/article/details/88364196
python爬虫爬取网站内容时,如果什么也没带,即不带报头headers,往往会被网站管理维护人员认定为机器爬虫。因为有的网站会根据请求的user-agent判定你是不是机器爬虫。所以,此时往往就需要伪装user-agent,模拟成真实的浏览器去取出内容。
-
一般主要应用Chrome或者Firefox,爬虫应用的时候,可以把他们都放到列表里面。然后import random,使用random.choice(list)随机获取一个user-agent。
-
不过呢,python里面有随机useragent插件
fake-useragent
- 这是python里面的一个
useragent
池,非常好用!具体怎么用呢?
首先,安装fake-useragent
pip install fake-useragent
然后,使用方法
from fake_useragent import UserAgent ua = UserAgent() headers = {'User-Agent':ua.random}
注意,有些网站可能会根据user-agent来封IP,也就是说他们会根据同一个IP下,如果是很多个不同user-agent在访问,那么,此时,他们就会判定为爬虫!
相关文章推荐
- 第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware中间件全局随机更换user-agent浏览器用户代理
- python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性)
- Python爬虫从入门到放弃(二十三)之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
- python爬虫随机获取User-Agent
- Python使用scrapy采集数据时为每个请求随机分配user-agent的方法
- Python爬虫小技巧之伪造随机的User-Agent
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫 从Apache2.2升级到Apache2.4后,发现原来用来限制部分I
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- 网页爬虫常用user-agent数组(适合各种语言使用)
- Python爬虫——4.6使用requests和正则表达式、随机代理爬取淘宝网商品信息
- 在scrapy简单使用代理池和随机的User-Agent
- scrapy在采集网页时使用随机user-agent的方法
- scrapy在爬取网页时使用随机user-agent方法
- python爬虫-常用的User-Agent列表
- Python爬虫之UserAgent
- Python之亚马逊反爬虫User-Agent和IP
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- 关于设置爬虫随机user-agent的一点尝试
- python scrapy 之 随机选择user-agent
- Apache2.4使用require指令进行访问控制–允许或限制IP访问/通过User-Agent禁止不友好网络爬虫