apache 禁止爬虫
2015-06-29 16:34
543 查看
Apache
①、通过修改 .htaccess文件
修改网站目录下的.htaccess,添加如下代码即可
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|JikeSpider|Indy ) [NC]
RewriteRule ^(.*)$ - [F]
②、通过修改httpd.conf配置文件
找到如下类似位置,根据以下代码 新增 / 修改,然后重启Apache即可:
DocumentRoot /home/wwwroot/xxx
<Directory "/home/wwwroot/xxx">
SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy )" BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT
</Directory>
①、通过修改 .htaccess文件
修改网站目录下的.htaccess,添加如下代码即可
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|JikeSpider|Indy ) [NC]
RewriteRule ^(.*)$ - [F]
②、通过修改httpd.conf配置文件
找到如下类似位置,根据以下代码 新增 / 修改,然后重启Apache即可:
DocumentRoot /home/wwwroot/xxx
<Directory "/home/wwwroot/xxx">
SetEnvIfNoCase User-Agent ".*(FeedDemon|JikeSpider|Indy )" BADBOT
Order allow,deny
Allow from all
deny from env=BADBOT
</Directory>
相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- NodeJS制作爬虫全过程(续)
- 零基础写Java知乎爬虫之抓取知乎答案
- 零基础写Java知乎爬虫之先拿百度首页练练手
- 零基础写Java知乎爬虫之获取知乎编辑推荐内容
- Python编写百度贴吧的简单爬虫
- 零基础写python爬虫之使用urllib2组件抓取网页内容
- 零基础写python爬虫之抓取百度贴吧代码分享
- 零基础写python爬虫之urllib2使用指南
- python利用beautifulSoup实现爬虫
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- 零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
- 在Python3中使用asyncio库进行快速数据抓取的教程
- 零基础写python爬虫之抓取糗事百科代码分享
- 零基础写Java知乎爬虫之进阶篇
- 简单的Python抓taobao图片爬虫
- Python实现抓取页面上链接的简单爬虫分享
- 零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版
- Go语言实现的web爬虫实例