您的位置:首页 > 编程语言 > Python开发

python3网络爬虫学习笔记(一)

2018-08-06 23:09 99 查看

人生苦短,我用python,本篇是学习python 网络爬虫的开篇笔记,将从基础一步一步学习、

 

一、首先是网络爬虫概述:网络爬虫 (又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,按照技术分类有已下几种类型

1、通用式网络爬虫

2、聚焦网络爬虫

3、增量式网络爬虫

4、深层网络爬虫

先说聚焦网络爬虫,它自动下载网页根据既定的抓取目标,选择相应的网页与链接来获取需要的信息

增量式爬虫,是在已下载好的网页上爬取新产生的或发生变化的网页,能保证所爬的网页尽可能新,能有效减少数据下载量,但爬行算法复杂难实现。

深层网络爬虫,可以获取web深层网页,隐藏在表单后面的,例如用户登录或者注册之后才能访问的页面

 

二、网络爬虫实际运用场景

1、常见的BT网站,爬出种子信息,提供对外搜索

2、云盘搜索网站,爬取用户共享的云盘文件数据

等等这类......

三、爬虫结构

1、选好种子URL

2、将这些URL放入待抓取队列

3、读取待抓取队列URL,解析DNS,得到主机ip,并下载网页,将这类URL放入已抓取URL队列

4、分析URL队列,从网页数据中分析其他URL,比较去重复

5、去重过的URL放入待抓取队列,进入下一个循环

 

 

 

 

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: