哪种代理适合用于 Web 数据采集?
2015-03-06 18:11
183 查看
在 Web 数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于 Web 数据采集。下面是鲲鹏数据的技术人员给出的说明。根据 HTTP 代理的匿名性可以将其分为以下几种:1. 透明代理(Transparent Proxies)目标服务器能够检测到真实的源 IP。目标服务器根据 HTTP 请求头进行检测,判断依据:REMOTE_ADDR = 代理服务器 IPHTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)HTTP_X_FORWARDED_FOR
= 真实源 IP(不用代理时,无此头或值为空)PS:该类型代理不适合用于 Web 数据采集。
2. (普通)匿名代理(Anonymous Proxies)目标服务器无法检测到真实的源 IP,但能够检测到使用了代理。检测依据:REMOTE_ADDR = 代理服务器 IPHTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源 IP)PS:该类型代理可以用于 Web 数据采集,但有被检测到的风险。3. 高匿名代理(High Anonymity Proxies -Elite proxies)目标服务器无法检测到你在是使用代理。
检测依据:REMOTE_ADDR = 代理服务器 IPHTTP_VIA = 值为空或无此头HTTP_X_FORWARDED_FOR = 没数值或无此头PS:该类型的代理非常适合用户 Web 数据采集。鲲鹏数据的付费代理方案提供的全部为高匿名类型的代理。另外,不使用代理时发出的头:REMOTE_ADDR =真实源 IPHTTP_VIA = 值为空或无此头HTTP_X_FORWARDED_FOR = 没数值或无此头不过,在检测严格的情况下,即使没有 HTTP_VIA 头和HTTP_X_FORWARDED_FOR
头,如果存在 HTTP_PROXY_CONNECTION 头,会被认为在使用普通匿名代理。我们提供了一个代理类型检测接口,在浏览器中访问该接口即可显示出你当前使用的代理类型(如下图):http://proxies.site-digger.com/proxy-detect/
= 真实源 IP(不用代理时,无此头或值为空)PS:该类型代理不适合用于 Web 数据采集。
2. (普通)匿名代理(Anonymous Proxies)目标服务器无法检测到真实的源 IP,但能够检测到使用了代理。检测依据:REMOTE_ADDR = 代理服务器 IPHTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源 IP)PS:该类型代理可以用于 Web 数据采集,但有被检测到的风险。3. 高匿名代理(High Anonymity Proxies -Elite proxies)目标服务器无法检测到你在是使用代理。
检测依据:REMOTE_ADDR = 代理服务器 IPHTTP_VIA = 值为空或无此头HTTP_X_FORWARDED_FOR = 没数值或无此头PS:该类型的代理非常适合用户 Web 数据采集。鲲鹏数据的付费代理方案提供的全部为高匿名类型的代理。另外,不使用代理时发出的头:REMOTE_ADDR =真实源 IPHTTP_VIA = 值为空或无此头HTTP_X_FORWARDED_FOR = 没数值或无此头不过,在检测严格的情况下,即使没有 HTTP_VIA 头和HTTP_X_FORWARDED_FOR
头,如果存在 HTTP_PROXY_CONNECTION 头,会被认为在使用普通匿名代理。我们提供了一个代理类型检测接口,在浏览器中访问该接口即可显示出你当前使用的代理类型(如下图):http://proxies.site-digger.com/proxy-detect/
相关文章推荐
- 哪种代理适合用于Web数据采集
- 哪种代理适合用于Web数据采集
- Web数据自动采集及其应用研究
- web_美团数据采集之_js网络访问同步问题
- 数据采集之Web端导入日志文件到Hadoop HDFS
- Web数据自动采集及其应用研究
- 数据采集实用工具【web scraper】
- 记一次WEB数据采集程序开发经历——对付简单的动态加载
- C#网页数据采集(三)HttpWebRequest
- NodeJs+http+fs+request+cheerio 采集,保存数据,并在网页上展示(构建web服务器)
- 【Web】<script type="text/template"></script>适合用于定义模板(模板容器),不解析(渲染/执行)
- C#网页数据采集(三)HttpWebRequest
- C#主要用于查询sql的web项目:查询以及页面显示数据非常缓慢的改进方案
- web数据自动采集及其应用研究
- (总结)web安全 防止数据采集的几种方式
- C#主要用于查询sql的web项目:gridview在页面上显示数据量大时跳转十分缓慢的解决方案
- 一个可用于实时采集的图像显示控件-用于数据采集的上位机显示中
- SharpHsql -- 只适合用于演示数据的数据库引擎
- 排名前50的开源Web爬虫用于数据挖掘
- C# 实现 客户端 对实时数据的采集 上传至服务端;在服务端把保存到内存中;供WEB页面调用