python3网络爬虫学习笔记(一)
2018-08-06 23:09
99 查看
人生苦短,我用python,本篇是学习python 网络爬虫的开篇笔记,将从基础一步一步学习、
一、首先是网络爬虫概述:网络爬虫 (又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,按照技术分类有已下几种类型
1、通用式网络爬虫
2、聚焦网络爬虫
3、增量式网络爬虫
4、深层网络爬虫
先说聚焦网络爬虫,它自动下载网页根据既定的抓取目标,选择相应的网页与链接来获取需要的信息
增量式爬虫,是在已下载好的网页上爬取新产生的或发生变化的网页,能保证所爬的网页尽可能新,能有效减少数据下载量,但爬行算法复杂难实现。
深层网络爬虫,可以获取web深层网页,隐藏在表单后面的,例如用户登录或者注册之后才能访问的页面
二、网络爬虫实际运用场景
1、常见的BT网站,爬出种子信息,提供对外搜索
2、云盘搜索网站,爬取用户共享的云盘文件数据
等等这类......
三、爬虫结构
1、选好种子URL
2、将这些URL放入待抓取队列
3、读取待抓取队列URL,解析DNS,得到主机ip,并下载网页,将这类URL放入已抓取URL队列
4、分析URL队列,从网页数据中分析其他URL,比较去重复
5、去重过的URL放入待抓取队列,进入下一个循环
阅读更多
相关文章推荐
- 用python写网络爬虫学习笔记(一)
- Python网络爬虫学习笔记(一)
- Python网络爬虫学习笔记(第一周)
- python网络爬虫学习笔记
- python网络爬虫学习笔记(一)配置安装python环境
- 精通python网络爬虫学习笔记(1)
- python 网络爬虫学习笔记(一)
- python网络爬虫学习笔记
- python网络爬虫学习笔记
- python网络爬虫学习笔记(1)
- 用python写网络爬虫学习笔记(二)
- python+requests+unittest API接口测试实例(详解)
- Python 自用代码(递归清洗采标情况)
- Python中的虚拟变量(dummy variables)
- Python3 输入和输出
- python小技巧 - 如何成为Python高手
- python--web项目
- 理解Python的With语句
- python简明教程--python基本概念
- python学习第一步:数据结构与算法