py3 爬虫设置user-agent
2017-06-12 17:11
399 查看
爬网页的时候,明明网址是正确的,但是用python爬网页返回 not fount 404错误
网上查了结果是需要设置 user-agent
# -*- coding:utf-8 -*-
import urllib.request
import re
# install proxy
# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html"
url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/11.html"
req = urllib.request.Request(url,headers={'User-agent': 'Mozilla/5.0'})
html = urllib.request.urlopen(req).read()
html = html.decode("gbk").replace('\n','').replace('\t','')
# print(html)
pat = re.findall('citytr(.*?)html',html)
print(pat)
网上查了结果是需要设置 user-agent
# -*- coding:utf-8 -*-
import urllib.request
import re
# install proxy
# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html"
url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/11.html"
req = urllib.request.Request(url,headers={'User-agent': 'Mozilla/5.0'})
html = urllib.request.urlopen(req).read()
html = html.decode("gbk").replace('\n','').replace('\t','')
# print(html)
pat = re.findall('citytr(.*?)html',html)
print(pat)
相关文章推荐
- Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢
- chencang-----为爬虫设置User-Agent
- 关于设置爬虫随机user-agent的一点尝试
- 爬虫知识5:常见反爬虫机制——User-Agent和代理IP设置
- java给爬虫设置User-Agent(绕过最表面的反爬虫机制)
- httpclient4.3下载远程图片,设置user-agent和refer
- Python+Webdriver+Phantomjs,设置不同的User-Agent,获得的url不一致
- iPhone开发技巧之私有API--- 设置UIWebView中的User-Agent
- 搜索引擎爬虫蜘蛛的User-Agent收集
- iPhone开发技巧之私有API(6)--- 设置UIWebView中的User-Agent
- android http请求设置user-agent包含中文
- c# 设置axwindows的User-agent信息
- (User Agent Switcher)扩展Firefox来设置和切换User-Agent(UA)
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- (User Agent Switcher)扩展Firefox来设置和切换User-Agent(UA)
- Android HttpClient设置User_agent的方式
- Nginx中配置过滤爬虫的User-Agent的简单方法
- gtk webkit 设置user-agent
- Firefox中User-Agent设置和用途
- 搜索引擎爬虫蜘蛛的User-Agent收集