8.抓取西刺网站(代理ip网站)
2016-06-01 10:34
363 查看
需求分析
使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;
分析网站结构
首页各分类IP列表连接(国内高匿代理等)
IP列表(多页)
具体IP获取(查看页面源码-分析html结构编写scrapy)
注意:
匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的
验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证
存储方式分析
文本文件;csv文件;
json文件;
jsonlines文件(每一行是一个json字符串);
数据库
云存储
代码结构规划
使用scrapy(功能强大-使用简便)抓取进阶
对西刺网站的抓取
相关文章推荐
- 网友评选最好玩实用的二十大良心网站,You Know?!
- 奔向架构师
- (EVTrust)支招五大技巧识别钓鱼网站
- 易维信(EVTrust)支招五大技巧识别钓鱼网站
- 【转载】大型网站架构系列:消息队列(二)
- 【转载】大型网站架构系列:分布式消息队列(一)
- hadoop学习之HDFS(2.2):centOS7安装高可用(HA)完全分布式集群hadoop2.7.2
- 公司项目架构的演变过程
- HTML5移动端手机网站开发流程
- iOS快速开发框架Bee-Framework应用和解析(二) - Bee framework架构概览
- 网页设计入门必看的六点建议
- 【转】Backbone架构+流程图
- 【转载】 50个学习新技能的最佳网站
- [置顶] 给大家推荐一个神奇的文献搜索网站sci-hub
- 一个都不能少: DevOps的3大核心基础架构
- 一个都不能少: DevOps的3大核心基础架构
- 基于Flume的美团日志收集系统(一)架构和设计
- .net网站的文件上传读取进度条和断点下载
- 网站兼容——火狐浏览器刷新没有清空表单
- 网站分析