您的位置：首页 > 理论基础 > 计算机网络

Python使用scrapy采集时伪装成HTTP/1.1的方法

2015-04-08 10:18 796 查看

添加下面的代码到 settings.py 文件

复制代码代码如下: DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'
保存以下代码到单独的.py文件
复制代码代码如下: from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter
class PageGetter(ScrapyHTTPPageGetter):
    def sendCommand(self, command, path):
        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

python网络爬虫之如何伪装逃过反爬虫程序的方法
Python3 伪装浏览器的方法示例

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Python scrapy 采集

相关文章推荐

Python基于scrapy采集数据时使用代理服务器的方法
讲解Python的Scrapy爬虫框架使用代理进行采集的方法
python scrapy 网络采集使用代理的方法
讲解Python的Scrapy爬虫框架使用代理进行采集的方法
Python使用scrapy采集数据时为每个请求随机分配user-agent的方法
Python使用scrapy采集数据过程中放回下载过大页面的方法
【python】【scrapy】使用方法概要（二）
python中使用urllib2伪造HTTP报头的2个方法
【python】【scrapy】使用方法概要（三）
python scrapy爬虫爬取图片简易方法，使用Images模块
scrapy一些非常实用资料整理，与其他mongdb、django、redis、solr、tor结合使用以及用Python脚本调用等等方法
WCF服务中的方法使用httpwebquest时网站无法响应HTTP/1.1_Server Too Busy
Requests: 让 HTTP 服务人类(Python第三方模块requests介绍及使用方法)
使用httplib模块来制作Python下HTTP客户端的方法
Python自定义scrapy中间模块避免重复采集的方法
Python模仿POST提交HTTP数据及使用Cookie值的方法
python中使用urllib2伪造HTTP报头的2个方法
Python httplib，smtplib使用方法
scrapy在采集网页时使用随机user-agent的方法
Python中使用socket发送HTTP请求数据接收不完整问题解决方法

新的分享

【Java面试】TCP协议为什么要设计三次握手？
深度学习与CV教程(11) | 循环神经网络及视觉应用
又一起 BGP 劫持事件，影响全球 200 多家云服务和 CDN 提供商
深度学习与CV教程(7) | 神经网络训练技巧 (下)
网络协议之:haproxy的Proxy Protocol代理协议
Nginx实现https、重定向https
NLP教程(9) - 句法分析与树形递归神经网络
艾瑞咨询：2020年中国疫情时期网络长视频内容价值回顾及探索
每天一个 HTTP 状态码 206
每天一个 HTTP 状态码 205
每天一个 HTTP 状态码 204
每天一个 HTTP 状态码 203

章节导航