网络爬虫的法律边界:来看看你够在里面待几年?
导读:来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年。
从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛入狱,有的被处罚金,从案件的模糊描述来看,我看得后背发凉,似乎每个爬虫选手都有被KO的风险。
这几个月也停止了几个抓取工作,把有关的法律和新闻认真看了几遍,下面跟大家一起分享。
作者:王平来源:猿人学Python(ID:python-yrx)
这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等。
《刑法》对网络爬虫的定罪依据:
《刑法》第 285 条,非法获取计算机信息系统数据罪。
获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,
处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。
《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。
定罪的几个案例:
从已有案例来看有以下几种情况:
1. 数据拥有者有证据能够举证你的数据是抓取来的
如下,今日头条对起诉上海晟品法院宣判结果。
▲来自中国判决文书网
从文书描述来看,修改UA,修改device id,绕开网站访问频率控制这是写爬虫的基本,这些手法反而成为了获罪的依据。
2. 抓取用户社交数据,尤其是用户隐私相关
▲来自新浪网
3. 用爬虫技术扰乱对方网站经营规则,且牟利
比如这个:
▲来自中国永嘉公号
图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。
在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。
老板交代你抓取敏感任务时,让老板先看下刑法第285条。
这不代表个人行为就没事,只是还没入他们的法眼。
在数据抓取这方面,美国也有一个判决案例,美国一家小公司向法院起诉Linkedin,理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据,而且法院判定这家公司胜诉,裁定Linkedin不准屏蔽这家公司的抓取行为。
目前我国法律是偏向数据拥有者的,如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。
另外在抓取过程中,如果破解/反编译对方客户端、软件,破解加密算法,比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。
爬虫有风险,开爬要谨慎。
关于作者:猿人学Python,一个IT老码农,写Python十年有余,喜欢专研通过爬虫技术来挣钱。
据统计,99%的大咖都完成了这个神操作▼
更多精彩
在公众号后台对话框输入以下关键词查看更多优质内容!
PPT | 报告 | 读书 | 书单大数据 | 揭秘 | 人工智能 | AIPython | 机器学习 | 深度学习 | 神经网络可视化 | 区块链 | 干货 | 数学
猜你想看
Q: 爬数据之前,看清底线了吗?欢迎留言与大家分享觉得不错,请把这篇文章分享给你的朋友转载 / 投稿请联系:baiyu@hzbook.com更多精彩,请在后台点击“历史文章”查看
- 爬虫千万不能触碰的法律边界
- 网络爬虫基本原理(二)
- 网络爬虫一
- Java网络爬虫 - 一个简单的爬虫例子
- 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
- 用 Python 编写网络爬虫 笔记
- Python之网络爬虫
- 网络爬虫之规范(2)
- 图论与网络爬虫
- 剖析网络爬虫----什么叫做网络爬虫(学习wawlian博客加其他博客)
- 网络抓包工具,爬虫开发
- 网络爬虫基本原理(一)
- 爬虫第一步,网络信息采集
- 网络爬虫实践(二)-动态页面
- java---网络爬虫讲解
- 基于WebKit的网络爬虫
- Unix 网络编程(五)-TCP客户/服务器运行时边界情况初探。
- 网络爬虫基本原理(二)
- 我的爬虫技术经历-网络数据采集-数据抓取-爬虫技术经历