老李谈爬虫 2
2016-01-27 17:13
218 查看
链接提取和规范化
一般链接不是拿来就可以直接使用的,有些链接会有很多的无效词组成,你需要进行无效词的删除,然后从中提取出有用的url,这有点类似于搜索引擎中构建到排索引时用到的预处理方法类似。爬虫陷阱攻击
爬虫不就是发个http请求嘛,也会对目的主机造成攻击?举个场景就能让大家马上明白,有2个网页,都是某爬虫即将要访问的url,A网页的连接为http://xxxx/a/b,也就是说是指向B网页的,然后B网页的链接为http://xxxx/b/a,也就是指向A网页的,这样就会发生一个很有意思的现象就是,A,B网页不断的爬虫访问,如此循环,最后不仅带宽被爬虫所霸占,还会导致其他正常的服务请求不能被处理,也就是造成了Dos拒绝服务攻击。解决的办法很简单,限制一下对同一个网页的访问次数。爬虫道德
尽管爬虫的功能很单一,就是偶然想某个地址请求请求内容而已,但是如果使用不当,也会造成恶意的影响,尤其是性能很棒的爬虫,会占领一定的Web服务器资源的带宽,极端情况下就是dos攻击嘛。礼貌的爬虫
如何做一个礼貌的爬虫:一个礼貌的爬虫应该在向某台服务器发送请求前,先去解析该服务器上的robots.txt文件,这个文件规定了任何爬虫不能爬取的内容,不仅如此,爬虫还需遵守爬虫阻止协议(虽然说并没有什么明文的规定)。当然如果某些爬虫不遵守上面说的规则,一旦被发现,可以马上封杀此ip,比如说短时间内高频率的访问某站点,就很容易被发现。爬虫小应用
这里举一个应用到爬虫的小的场景,当然不是搜索引擎的应用场景,某些用户想要在浏览网页的时候屏蔽掉烦人的广告,想要过滤掉此类链接,这时候就可以使用带有部分爬虫功能的去广告插件,爬虫在此的作用就是爬去链接数据,识别是否是广告数据,因为广告一般都是一个大的图片上跟一个链接,识别出之后就能想干嘛干嘛了。相关文章推荐
- 老李谈爬虫 1
- Codeforces 617E XOR and Favorite Number (Round #340 (Div. 2) E题) 莫队算法 + 异或基本性质
- 原型模式(Prototype Pattern)
- Android内存泄漏杂谈
- Activity启动模式之launchMode
- Windows与自定义USB HID设备通信说明.
- 在线编辑器调用
- 复旦大学2014--2015学年第二学期(14级)高等代数II期末考试第七大题解答
- Mysql查看编码方式
- [IOS 开发] 强引用(__strong)和 弱引用(__weak)
- 【Mapreduce】以逗号为分隔符的WordCount词频统计
- 获取出口IP的网站
- POJCodeSubmitter_Update
- struts2的常用标签(二)
- iOS开发-进阶:音频播放、录音、视频播放、拍照、视频录制
- HIVE简单相关语句
- 只能输入数字,不需要小数点,错误可能是
- 原始LSH算法trick
- iOS裁剪,缩放图片白边问题解决办法
- 设计模式--15、模板方法模式