Python爬虫使用代理proxy抓取网页
2017-03-12 13:45
489 查看
代理类型(proxy):透明代理 匿名代理 混淆代理和高匿代理. 这里写一些python爬虫使用代理的知识, 还有一个代理池的类. 方便大家应对工作中各种复杂的抓取问题。
urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.
代理格式是"http://127.0.0.1:80",如果要账号密码是"http://user:password@127.0.0.1:80".
requests使用代理要比urllib简单多了…这里以单次代理为例. 多次的话可以用session一类构建.
如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:
你也可以通过环境变量 HTTP_PROXY 和 HTTPS_PROXY 来配置代理。
若你的代理需要使用HTTP Basic Auth,可以使用 http://user:password@host/ 语法:
python的代理使用非常简单, 最重要的是要找一个网络稳定可靠的代理。
urllib 模块使用代理
urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.代理格式是"http://127.0.0.1:80",如果要账号密码是"http://user:password@127.0.0.1:80".
requests 模块 使用代理
requests使用代理要比urllib简单多了…这里以单次代理为例. 多次的话可以用session一类构建.如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:
相关文章推荐
- Python开发中爬虫使用代理proxy抓取网页的方法示例
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- Python3.7 爬虫(二)使用 Urllib2 与 BeautifulSoup4 抓取解析网页
- python爬虫之使用urllib2组件抓取网页内容
- 零基础写python爬虫之使用urllib2组件抓取网页内容
- Python使用代理抓取网页内容
- 零基础写python爬虫之使用urllib2组件抓取网页内容
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取自己想要网页内容
- java爬虫(使用jsoup设置代理,抓取网页内容)
- python使用ip代理抓取网页
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取动态网页内容:Knewone
- 使用Python抓取网页信息
- Python写爬虫——抓取网页并解析HTML(修订篇)
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用python抓取有道词典的网页并返回结果信息
- (转载)Python写爬虫--抓取网页并解析HTML
- python写的爬虫抓取到的网页是乱码解决
- 使用Python中的urlparse、urllib抓取和解析网页(一)
- Python写爬虫——抓取网页并解析HTML