网络爬虫通用策略
2016-06-08 16:38
369 查看
1、通用爬虫框架:
选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾
已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合
2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页禁抓协议(html中嵌入<meta name='robots') 两类
3、衡量标准:网页覆盖率、网页时新性、网页重要性
4、抓取策略:宽度优先遍历策略、非完全pagerank策略、OPIC策略、大站优先策略
5、网页更新策略:历史参考策略、用户体验策略、聚类抽样策略
6、暗网抓取:百度『aladdin』 google『富含信息查询模板+ISIT算法』
7、分布式集群爬虫:主从式、对等式(利用一致性hash算法)
选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾
已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合
2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页禁抓协议(html中嵌入<meta name='robots') 两类
3、衡量标准:网页覆盖率、网页时新性、网页重要性
4、抓取策略:宽度优先遍历策略、非完全pagerank策略、OPIC策略、大站优先策略
5、网页更新策略:历史参考策略、用户体验策略、聚类抽样策略
6、暗网抓取:百度『aladdin』 google『富含信息查询模板+ISIT算法』
7、分布式集群爬虫:主从式、对等式(利用一致性hash算法)
相关文章推荐
- http://cuiqingcai.com/993.html
- HTTP状态码大全
- Linux下smokeping网络监控环境部署记录
- TCP UDP Socket
- linux下生成https的crt和key证书
- 苹果审核ipv6-only网络
- 关于Http协议与TCP协议的一些简单理解
- 关于Http协议与TCP协议的一些简单理解
- NSURLSession POST请求HTTPBody组装时字符串中特殊字符的处理
- HTTP协议学习 – HTTP HTTP协议介绍 持续连接 HTTP消息
- c# 【MVC】WebApi通过HttpClient来调用Web Api接口
- OSI七层与TCP/IP五层网络架构详解
- OSI七层与TCP/IP五层网络架构详解
- tcpdump 抓包工具
- Tomcat生成https+ssl双向证书认证
- netstat –lnp查看监听端口(查看网络连接状况)
- android6.0SDK中删除HttpClient的相关类的解决方法
- 【安卓SDK学习之anyChatSDK】 1_1 实现用户登录和房间进出(根据官方HelloAnyChat的demo整理的简要的开发流程)
- 处理 httprequest post 编码问题
- 重头再来