您的位置:首页

爬虫的本质是什么?

2018-03-29 09:02 344 查看
来源于:http://www.sohu.com/a/168371748_714863

很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。

分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。

分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么。

--- 个人认为目前很多公司因为只有一到两条宽带(因为办公的宽带太贵了),也就是说爬虫只有一个网络出口,出去的ip是固定的,所以说要去搞分布式爬虫的公司,都是在装逼扯淡。作为程序员我们仅仅能提高的是抓取网页的速度而已。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: