您的位置：首页 > 编程语言 > Python开发

python3网络爬虫学习笔记(一)

2018-08-06 23:09 99 查看

人生苦短，我用python，本篇是学习python 网络爬虫的开篇笔记，将从基础一步一步学习、

一、首先是网络爬虫概述：网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，按照技术分类有已下几种类型

1、通用式网络爬虫

2、聚焦网络爬虫

3、增量式网络爬虫

4、深层网络爬虫

先说聚焦网络爬虫，它自动下载网页根据既定的抓取目标，选择相应的网页与链接来获取需要的信息

增量式爬虫，是在已下载好的网页上爬取新产生的或发生变化的网页，能保证所爬的网页尽可能新，能有效减少数据下载量，但爬行算法复杂难实现。

深层网络爬虫，可以获取web深层网页，隐藏在表单后面的，例如用户登录或者注册之后才能访问的页面

二、网络爬虫实际运用场景

1、常见的BT网站，爬出种子信息，提供对外搜索

2、云盘搜索网站，爬取用户共享的云盘文件数据

等等这类......

三、爬虫结构

1、选好种子URL

2、将这些URL放入待抓取队列

3、读取待抓取队列URL，解析DNS，得到主机ip，并下载网页，将这类URL放入已抓取URL队列

4、分析URL队列，从网页数据中分析其他URL，比较去重复

5、去重过的URL放入待抓取队列，进入下一个循环

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航