您的位置:首页 > 理论基础 > 计算机网络

如何判断爬虫采集内容是否违法?

2018-01-12 20:59 447 查看

前言

随着大数据和人工智能的火爆,网络爬虫也被大家熟知起来;随之也出现一个问题,网络爬虫违法吗?符合道德吗?本文将详细介绍网络爬虫是否违法,希望帮助你解决爬虫是否违法带来的困扰。

网络爬虫大多数情况都不违法

网络爬虫在大多数情况中都不违法,其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下你都可以放心大 胆的使用爬虫技术。当然也有特殊情况,请看下一章节。

哪些情况下网络爬虫采集数据后具备法律风险

1.当采集的站点有声明禁止爬虫采集或者转载商业化时。



法律声明-禁止爬虫采集条款示例(图)


2.当网站声明了rebots协议

rebots协议简介

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

如何查看采集的内容是的有rebots协议

其实方法很简单。你想查看的话就在IE上打http://你的网址/robots.txt要是说查看分析robots的话有专业的相关工具 站长工具就可以!



rebots协议示例图


总结

了解法律风险总是好的,免得以后掉进坑中了自己还不知道;毕竟没必要为了某件事或者某份工作影响自己的前程。

关注微信公众号:DT数据技术博文 或 DtDataInfo ,有更多爬虫、大数据、人工智能干货等着你,下一节将分享,《工作需要老板让你用爬虫采集法律风险内容怎么办?》

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息