您的位置：首页 > 理论基础 > 计算机网络

Python网络爬虫——1、初识网络爬虫

2018-04-01 17:30 501 查看

什么是网络爬虫

网络爬虫（又称为网页蜘蛛、网络机器人，在FOAF社区中间，更经常被称为网页追逐者），是一种按照一定规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取WEB网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小型站点的推广提供了有效的途径。

为什么要进行网络爬虫

假设我有一个鞋店，并且想要及时了解竞争对手的价格。我可以每天访问他们的网站，与我店铺中的鞋子的价格做对比。但是，如果我店铺中的鞋类品种繁多，或是希望能够更加频繁地查看价格变化的话，就需要花费大量的时间，甚至难以实现。再举一个例子，我看中一双鞋，想等它促销时再购买。我可能需要每天访问这家鞋店来看这双鞋是否降价，也许需要等待几个月的时间，我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程，都可以利用网络爬虫来实现自动化处理。

网络爬虫是否合法

网络爬虫目前还处于早期的莽荒阶段，“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看，如果抓取数据的行为用于个人使用，则不存在问题；如果数据用于转载，那么抓取的数据类型就非常关键了。

网络爬虫语言

网络爬虫可以使用java,也可以使用python，笔者更加倾向于python。python有强大的第三方库的支持，有相应的模块为网络爬虫提供强有力的支持，是一个非常不错的选择。

网络爬虫需要做的基础准备

（1）安装python
（2）一个较好的python开发IDE（例如：pycharm）
（3）相关的python库（这个在后面使用到的时候再说）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航