您的位置:首页 > 其它

程序模拟网页提交、爬虫的常见方案及优劣势分析

2014-03-17 00:16 225 查看
闻道软件工作室已经做过多个使用软件模拟HTTP GET和POST请求的工具和系统,使用过多种方案。本文将对我们使用过的方案做一些分析和对比

1、C/C++作为开发语言,使用CURL开源库作HTTP请求。CURL功能强大,除了支持HTTP外还支持HTTPS。我们在多个系统和工具中使用了这个方案,比如模拟天翼Live协议的短信平台、模拟139协议的短信、彩信平台等。C/C++作为一种经典的开发语言,其开发出来的程序执行效率高、跨平台、程序扩展性以及稳定性容错性都较强,但是相对于其他方案对开发者的专业知识要求较高,除了要有扎实的C/C++编程功底意外、需要通过分析HTTP报文、甚至是分析JS、Jquery代码来得到具体页面中关键的参数。涉及到Web编程、HTTP协议、JS/Jquery语言等其他知识。在模拟天翼Live协议的短信平台这个系统中,我们还对天翼Live的客户端进行了逆向以获取一些加密算法和参数的细节。是本文列举的几个方案中开发难度最大,维护成本最高的方案,当然优势也不言而喻,开发出的系统功能强大,性能高,直接深入最底层协议开发灵活性最强。

2、Python作为开发语言,使用自带的urllib库作Http请求。相对于第一种方案,程序执行效率低,而且因为Python是一种脚本语言,在逻辑稍微复杂时程序容错性会变得很差。所以这种方案适合一些对容错性要求不高,对开发周期有要求的场合。如闻道软件工作室开发的商业信息爬虫便是基于此方案,由于客户要在最短的时间内抓取到有用的信息,对软件本身并没有要求,我们在很短的时间内就开发出了程序并得到了重要的数据。


程序模拟网页提交、爬虫的常见方案及优劣势分析

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: