您的位置:首页 > 理论基础 > 计算机网络

Python网络爬虫——1、初识网络爬虫

2018-04-01 17:30 501 查看




什么是网络爬虫

网络爬虫(又称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取WEB网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小型站点的推广提供了有效的途径。

为什么要进行网络爬虫

假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中的鞋子的价格做对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中一双鞋,想等它促销时再购买。我可能需要每天访问这家鞋店来看这双鞋是否降价,也许需要等待几个月的时间,我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程,都可以利用网络爬虫来实现自动化处理。

网络爬虫是否合法

网络爬虫目前还处于早期的莽荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题;如果数据用于转载,那么抓取的数据类型就非常关键了。

网络爬虫语言

网络爬虫可以使用java,也可以使用python,笔者更加倾向于python。python有强大的第三方库的支持,有相应的模块为网络爬虫提供强有力的支持,是一个非常不错的选择。

网络爬虫需要做的基础准备

(1)安装python
(2)一个较好的python开发IDE(例如:pycharm)
(3)相关的python库(这个在后面使用到的时候再说)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: