您的位置:首页 > 运维架构 > 网站架构

8.抓取西刺网站(代理ip网站)

2016-06-01 10:34 363 查看

需求分析

使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;

目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;

分析网站结构

首页

各分类IP列表连接(国内高匿代理等)

IP列表(多页)

具体IP获取(查看页面源码-分析html结构编写scrapy)



注意:

匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的

验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证

存储方式分析

文本文件;

csv文件;

json文件;

jsonlines文件(每一行是一个json字符串);

数据库

云存储

代码结构规划

使用scrapy(功能强大-使用简便)

抓取进阶

对西刺网站的抓取
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: