您的位置:首页 > 其它

一键获取免费真实的匿名代理

2017-11-28 00:00 85 查看
專 欄



夏洛之枫,从销售转为程序员,Python爬虫爱好者。

github: https://github.com/ShichaoMa/proxy_factory
blog: http://www.mashichao.com/


昨天闲来无事,实现了一个代理工厂,该程序自动从网上抓取免费代理(实现了9个代理网站哦),并对代理的可用性和匿名性进行检查,同时定时检查有效代理和无效代理,对于多次检查始终无效的代理,做放弃处理。同时检查函数可以自定义指定,用来针对不同的检查结果做出不同的反应。当然代理网站也可以自定义,简单的几行代码几条配置信息,实现最大限度的free-style。
网上抓取免费代理的小程序已经很多了,那为什么我还要写呢,原因只有一个,用起来简单,免费代理这东西,你指望他用来看电影,就是扯蛋,网速都贼慢。说白了,用他只是为了提供给我们广大程序员一个可用ip罢了,那么这个程序肯定是程序员怎么用起来方便怎么写。pip一键安装,守护进程的方式启动,剩下的不需要你操心了,直接去redis中获取有效代理即可。
原理什么的不讲了,都差不多,直接说使用方法 
使用docker一键启动!



如果你不喜欢用docker的话,那么请往下看。 
安装



运行



1分钟后看看你本地redis中good_proxies字段,是不是已经有了不少代理?
超简单有木有 
但是!
理想很丰满,现实很骨感。如果你运气好一个坑都没有踩到,那么请点右上角(或左上角)x,我们下次再见。但是我很清楚,99%的盆友都会遇到各种安装坑,所以如何躲坑也是我下面即将讲述的重点,支起耳朵来吧! 
首先
程序使用到了redis做为存储,如果你电脑上正好安装有redis同时也启动着,那么恭喜你,这个坑不会撂倒你。如果没有,那么请安装



其它平台请自行google。 
其次
程序使用到了 tesseract-ocr 这个google开源的验证码识别程序,代理网站mimvp很坑爹,端口使用图片,于是乎只能机器识别了。当然,不安装ocr也没有关系,无非放弃这个网站喽。



最后
还是上面那个垃圾网站的坑,因为要识别验证码,我对图片进行了处理,所以需要pillow,pillow的安装请自行查看pillow官网,如果想放弃这个网站,打开我的源码,把这个网站相关的代码注释掉即可。
如果你是windows平台,相信我,千万坑总有一个能把你撂倒,珍爱生命,远离windows。
好了,坑讲解完毕。
下面讲启动方式。 
启动方式
程序虽小,功能挺全。
先贴下指令



自定义检查方法



将检查方法保存成python文件,比如check,然后-cm check.check指向他即可。
自定义代理网站



配置模块



将配置模块信息保存成localsettings.py,然后-s 指向他就可以。同时,程序还支持环境变量配置,只要将字段保存为环境变量信息,如 export GOOD_CHECK_INTERVAL = 120,配置即可生效,优先级关系:环境变量>localsettings>defaultsettings。
redis中的状态



9个代理网站,有反爬机制的只有2个,一个是mimvp,使用图片端口反爬,一个是goubanjia,使用js混淆反爬,有兴趣的可以研究一下。


长按扫描关注Python中文社区,
获取更多技术干货!
    

Python 中 文 社 区

Python中文开发者的精神家园

合作、投稿请联系微信:

pythonpost

— 人生苦短,我用Python —
1MEwnaxmMz7BPTYzBdj751DPyHWikNoeFS

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: