关于爬虫与反爬虫简略方案
2018-01-12 15:10
232 查看
像安全与黑客从来都是相辅相成一样。
爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。
常用的抓包分析工具:
Fiddler
Charles
Sniffer
Wireshark
具体使用策略,请自行百度,Google。
HttpClient4.5官方教程
建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。
那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,
当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。
如拒绝代理ip直接请求接口:
这是我使用代理ip请求登录接口时,某APP的响应:
而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。
防止目标服务方检测出频率过快,进行拒绝服务的响应。
将对应账号和Cookie存入Redis,
起一个任务对账号Cookie进行定时检测,
接近失效时间,进行提前更新Cookie信息,
具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。
确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
注意访问频率
其他
总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。
只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,
只不过是难易程度不同。
如果出于商业目的,要考虑付出的成本到底是否合适。
作者:随风浮云
出处:http://www.cnblogs.com/ljmatlight
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,
且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。
抓包
抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。常用的抓包分析工具:
Fiddler
Charles
Sniffer
Wireshark
具体使用策略,请自行百度,Google。
抓数据
使用 HttpClient 模拟请求
充分了解 HttpClient 的特性,使用方式等。HttpClient4.5官方教程
user_agent 的使用
使用 user_agent 的伪装和轮换模拟不同的客户端。建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。
http://www.fynas.com/ua/search?b=Chrome&k=
代理IP的使用
建立代理ip池,一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,
当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。
http代理
有些网站(包括APP、PC)具有一定的反爬虫能力,如拒绝代理ip直接请求接口:
这是我使用代理ip请求登录接口时,某APP的响应:
CONNECT refused by proxy
而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。
socks代理
待续设置访问频率
即便是使用了代理ip,那么对目标接口的访问也要有一定的频率控制,防止目标服务方检测出频率过快,进行拒绝服务的响应。
Cookie 池失效和更新策略
获取目标站点Cookie有效时间,将对应账号和Cookie存入Redis,
起一个任务对账号Cookie进行定时检测,
接近失效时间,进行提前更新Cookie信息,
具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。
防止目标方的分析
确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。
注意访问频率
其他
总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。
只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,
只不过是难易程度不同。
如果出于商业目的,要考虑付出的成本到底是否合适。
作者:随风浮云
出处:http://www.cnblogs.com/ljmatlight
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,
且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
相关文章推荐
- 关于爬虫和反爬虫的简略方案分享
- 关于爬虫的文章,有时间要细细看一下面
- 关于网站建设设计方案
- 安装VS2008关于解决磁盘已满问题方案.
- VS2012关于hash_map的使用简略
- 关于chrome浏览器-webkit-autofil覆盖input样式问题解决方案
- 关于SMS短信滞后阅读的实现方案
- 关于MySql entity framework 6 执行like查询问题解决方案
- 一个简单的爬虫程序(爬取百度百科关于python的一千个页面)
- 关于input文本框,设置为readonly后,onchage事件无响应处理方案
- 关于JS异步加载方案
- 关于python爬虫去重问题
- 关于读取Unity 配置的方案
- 部分关于SQL SERVER 08 优化方案:…
- XX行关于联机交易(OLTP)系统类项目的性能测试技术方案(2)
- 关于爬虫——前言
- 关于Libgdx游戏资源的管理方案思考
- 关于S5PV210 LVDS/VGA等方案的考虑——关于SDA7123和ch7034的性价比分析
- 关于大型网站技术演进的思考(十)--网站静态化处理—动静整合方案(2)
- 关于使用hbase进行多维度条件实时查询的方案调研