Python爬虫之UserAgent
2018-02-22 19:09
405 查看
问题: 在Python爬虫的过程中经常要模拟UserAgent, 因此自动生成UserAgent十分有用, 最近看到一个Python库(fake-useragent),可以随机生成各种UserAgent, 在这里记录一下, 留给自己爬虫使用。
安装
注意:
fake-useragent 将收集到的数据缓存到temp文件夹, 例如 /tmp, 更新数据:
有时候会因为网络或者其他问题,出现异常(
可以自己添加本地数据文件(v0.1.4+)
其他功能用到的也不是很多,详细见文档吧。
安装 pip install fake-useragent
使用案例
基本使用from fake_useragent import UserAgent ua = UserAgent() ua.ie # Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US); ua.msie # Mozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; Trident/6.0)' ua['Internet Explorer'] # Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0; GTB7.4; InfoPath.2; SV1; .NET CLR 3.3.69573; WOW64; en-US) ua.opera # Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11 ua.chrome # Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2' ua.google # Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.13 (KHTML, like Gecko) Chrome/24.0.1290.1 Safari/537.13 ua['google chrome'] # Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11 ua.firefox # Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0.1) Gecko/20121011 Firefox/16.0.1 ua.ff # Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1 ua.safari # Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5355d Safari/8536.25 # and the best one, random via real world browser usage statistic ua.random
注意:
fake-useragent 将收集到的数据缓存到temp文件夹, 例如 /tmp, 更新数据:
from fake_useragent import UserAgent ua = UserAgent() ua.update()
有时候会因为网络或者其他问题,出现异常(
fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached), 可以禁用服务器缓存(从这里踩了一个坑, 没仔细看文档的锅):
from fake_useragent import UserAgent ua = UserAgent(use_cache_server=False)
可以自己添加本地数据文件(v0.1.4+)
import fake_useragent # I am STRONGLY!!! recommend to use version suffix location = '/home/user/fake_useragent%s.json' % fake_useragent.VERSION ua = fake_useragent.UserAgent(path=location) ua.random
其他功能用到的也不是很多,详细见文档吧。
相关文章推荐
- python爬虫-常用的User-Agent列表
- python爬虫之User Agent
- 爬虫-利用urllib爬去网页增加user_agent和proxy(Python)
- Python爬虫从入门到放弃(二十三)之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
- Python之亚马逊反爬虫User-Agent和IP
- Python爬虫小技巧之伪造随机的User-Agent
- 第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware中间件全局随机更换user-agent浏览器用户代理
- Python 爬虫一些常用的UA(user-agent)
- 搜索引擎爬虫蜘蛛的User-Agent
- python(三)User Agent
- 网络爬虫八-处理user-agent
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- selenium+python 更改默认请求头user-agent
- Python使用scrapy采集数据时为每个请求随机分配user-agent的方法
- 爬虫知识5:常见反爬虫机制——User-Agent和代理IP设置
- Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢
- 搜索引擎爬虫蜘蛛的User-Agent收集
- Linux企业级项目实践之网络爬虫(13)——处理user-agent
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- chencang-----为爬虫设置User-Agent