您的位置:首页 > 编程语言 > Python开发

程序员新手如何轻松学习python爬虫,看了这个,你就会明白

2020-01-13 03:05 113 查看

Python-网络爬虫

1.网络爬虫是何物?

说到网络爬虫,然而它并不是一种爬虫~而是一种可以在网上任意搜索的一个脚本程序。有人说一定要解释网络爬虫到底是干什么用的。尝试了很多种解释,最终归纳为一句话:

”你再也不必用鼠标一条一条的从网页上拷贝信息!“

一个爬虫程序将会高效并且准确的从网上拿到你希望得到的所有信息,省去下面的行为:

当然网络爬虫的真正意义不仅如此,由于它可以自动提取网页信息,使他成为了搜索引擎从万维网上下载网页的重要利器。

 

下面我们来介绍一下网络爬虫的正经定义:

网络爬虫 (又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网 信息的 程序 或者 脚本 。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者 蠕虫。

网络爬虫 (web Spider),Spider是蜘蛛的意思,实际上名字是很形象的,他们把 互联网 比喻成一个 蜘蛛网 ,那么所谓的这个spider就在网上爬来爬去。这个网络蜘蛛是通过网页的链接地址来寻找网页的。

蜘蛛的主要行径: 网页首页—>读取网页内容—>找到网页中其他的链接地址—>其他网页的

首页—>...

在这里相信有许多想要学习Python的同学,大家可以+下Python学习分享裙:五二八 三九七 六一七,即可免费领取一整套系统的 Python学习教程!

 

这样的循环下去,直到将这个网站上所有的网页都吃光(网页上所有的信息全部用蜘蛛得到)。

如果你敢把互联网比喻成一个网站,一定会有那么一个网络蜘蛛能够可以把 整个互联网 的资源全部吃光!!!显而易见,网络爬虫的基本操作就是住区网页。网页地址就是一个叫URL的东西,那么我们就要简单的处理一下URL。

2.URL初步概念

我们先来介绍一下浏览网页的基本过程,比如我们在浏览器地址输入一个网址。整个过程大致会发生以下步骤

本地浏览器(客户端)--->请求--->服务器(服务端)

本地浏览器(客户端)<---文件数据<---服务器(服务端)

本地浏览器客户(客户端)进行解析文件数据并且展现。

 

那么实际上浏览器用的是一种叫html标记的语言来进行解析的。

我们给浏览器输入的地址,实际上就是一个url(Uniform Resource Locator) 统一资源定位符。就是 地址 啦,搞学术的人非得弄的很高端。URL的一般格式是: protocol:// hostname[:port] / path / [;parameters][?query]#fragment

基本上是由三部分组成:

 

其中:

第一部分和第二部分用 “://” 分割

第二部分和第三部分用 “/” 分割

下面看几个URL例子:

其中

协议http,

计算机域名xianluomao.sinaapp.com,

请求目录game

其中协议http,

计算机域名help.qunar.com

文件list.html

网络爬虫的主要处理对象就是类似于以上的URL,爬虫根据URL地址取得所需要的文件内容,然后对它进一步的处理。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
醉月似心 发布了67 篇原创文章 · 获赞 1 · 访问量 1276 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: