您的位置：首页 > 其它

py3 爬虫设置user-agent

2017-06-12 17:11 399 查看

爬网页的时候，明明网址是正确的，但是用python爬网页返回 not fount 404错误

网上查了结果是需要设置 user-agent

# -*- coding:utf-8 -*-
import urllib.request
import re

# install proxy
# url ="http://www.cnblogs.com/GuoYaxiang/p/6232831.html"
url = "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/11.html"
req = urllib.request.Request(url,headers={'User-agent': 'Mozilla/5.0'})
html = urllib.request.urlopen(req).read()
html = html.decode("gbk").replace('\n','').replace('\t','')

# print(html)
pat = re.findall('citytr(.*?)html',html)
print(pat)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢
chencang-----为爬虫设置User-Agent
关于设置爬虫随机user-agent的一点尝试
爬虫知识5：常见反爬虫机制——User-Agent和代理IP设置
java给爬虫设置User-Agent（绕过最表面的反爬虫机制）
httpclient4.3下载远程图片，设置user-agent和refer
Python+Webdriver+Phantomjs,设置不同的User-Agent，获得的url不一致
iPhone开发技巧之私有API--- 设置UIWebView中的User-Agent
搜索引擎爬虫蜘蛛的User-Agent收集
iPhone开发技巧之私有API（6）--- 设置UIWebView中的User-Agent
android http请求设置user-agent包含中文
c# 设置axwindows的User-agent信息
(User Agent Switcher)扩展Firefox来设置和切换User-Agent(UA)
Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
(User Agent Switcher)扩展Firefox来设置和切换User-Agent(UA)
Android HttpClient设置User_agent的方式
Nginx中配置过滤爬虫的User-Agent的简单方法
gtk webkit 设置user-agent
Firefox中User-Agent设置和用途
搜索引擎爬虫蜘蛛的User-Agent收集

新的分享

一次教科书级别的Redis高可用架构设计实践 - Redis
曾光：北京这次的毒株不像国内流行类型
从PRD文档到产品上线，有哪些问题需要解决？
vue3自定义指令的使用
Oracle SQL性能优化最常用的40条建议 - ORACLE
程序员翻车常见反应，你中枪了吗？ - 职场生涯
新鲜开源：基于Prometheus的企业监控平台设计与实现 - 运维
嵌入式软件开发之程序架构设计-任务调度
【Java面试】请简单说一下你对受检异常和非受检异常的理解
奇安信更新招股书：第一季亏损过5亿，齐向东持股38%
艾瑞咨询：2020年中国后智能厨房案例研究报告
艾瑞咨询：2020年中国人工智能+物流发展研究报告

章节导航