您的位置:首页
爬虫的本质是什么?
2018-03-29 09:02
344 查看
来源于:http://www.sohu.com/a/168371748_714863
很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。
分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。
分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么。
--- 个人认为目前很多公司因为只有一到两条宽带(因为办公的宽带太贵了),也就是说爬虫只有一个网络出口,出去的ip是固定的,所以说要去搞分布式爬虫的公司,都是在装逼扯淡。作为程序员我们仅仅能提高的是抓取网页的速度而已。
很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。
分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。
分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么。
--- 个人认为目前很多公司因为只有一到两条宽带(因为办公的宽带太贵了),也就是说爬虫只有一个网络出口,出去的ip是固定的,所以说要去搞分布式爬虫的公司,都是在装逼扯淡。作为程序员我们仅仅能提高的是抓取网页的速度而已。
相关文章推荐
- C++引用的本质究竟是什么? (探索c++的底层机制)
- Linux运维工程师,Linux系统集群架构师,Linux系统工程师有什么本质区别,如何区分?
- 读书笔记:技术的本质-技术是什么,它是如何进化的 (布莱恩•阿瑟)
- 大数据本质是什么,基础理论应该怎么理解?
- js中函数带不带var的本质区别是什么
- 什么是傅里叶变换,本质是?
- 曾鸣:互联网的本质是什么?| 内部干货
- html语义化,SEO的原理,什么是爬虫、怎么去写一个爬虫
- 我是一只小小爬虫(Python编程)--第1节 什么是爬虫
- requests 和 scrapy 在不同的爬虫应用中,各自有什么优势?
- BREW究竟是什么-BREW本质之我见
- truncate 本质是什么
- Android中Local Service最本质的作用是什么?
- Java简单爬虫系列(1)---什么是爬虫,爬虫原理,怎么来实现爬虫
- buffer和cache有什么本质区别
- python爬虫怎么赚钱?学完Python能做什么?
- 什么是网络爬虫,网络爬虫的职能是什么
- 用户需求说明书 与 需求规格说明书 有什么本质区别?
- 剖析网络爬虫----什么叫做网络爬虫(学习wawlian博客加其他博客)