Python网络爬虫——1、初识网络爬虫
2018-04-01 17:30
501 查看
什么是网络爬虫
网络爬虫(又称为网页蜘蛛、网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取WEB网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小型站点的推广提供了有效的途径。为什么要进行网络爬虫
假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中的鞋子的价格做对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中一双鞋,想等它促销时再购买。我可能需要每天访问这家鞋店来看这双鞋是否降价,也许需要等待几个月的时间,我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程,都可以利用网络爬虫来实现自动化处理。网络爬虫是否合法
网络爬虫目前还处于早期的莽荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题;如果数据用于转载,那么抓取的数据类型就非常关键了。网络爬虫语言
网络爬虫可以使用java,也可以使用python,笔者更加倾向于python。python有强大的第三方库的支持,有相应的模块为网络爬虫提供强有力的支持,是一个非常不错的选择。网络爬虫需要做的基础准备
(1)安装python(2)一个较好的python开发IDE(例如:pycharm)
(3)相关的python库(这个在后面使用到的时候再说)
相关文章推荐
- python网络爬虫之初识网络爬虫
- Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
- python 爬虫系列(0) --- 初识网络爬虫
- 【网络爬虫】【python】网络爬虫(五):scrapy爬虫初探——爬取网页及选择器
- Python 网络爬虫 001 (科普) 网络爬虫简介
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python 网络爬虫与信息获取(一)—— requests 库的网络爬虫
- 第一课 Python爬虫初识与网络请求
- Python网络爬虫(一):初步认识网络爬虫
- 【网络爬虫】【python】网络爬虫(二):网易微博爬虫软件开发实例(附软件源码)
- Python网络爬虫与信息提取(一):网络爬虫之规则
- 网络爬虫之初识网络爬虫
- python网络爬虫系列教程——python网络数据爬虫误区,让你的爬虫更像人类
- 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
- Python网络爬虫与信息提取(二):网络爬虫之提取
- 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python3网络爬虫快速入门实战解析(一小时入门 Python 3 网络爬虫)
- Python网络爬虫与信息提取(二):网络爬虫之提取