利用html标签限制搜索引擎对网站的抓取收录
2015-11-17 10:48
507 查看
有时有这样的需求,在网页未制作完成,或涉及隐私不能公布,而这时又不能阻止搜索引擎来抓取网页!
第一种方法:限制网页快照
限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">
限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">
第二种方法:禁止搜索引擎抓取本页面和搜索引擎引用页面
<meta name="robots" conrent="noindex,follow">
在这里,META NAME="ROBOTS" 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。
例如:META NAME="Googlebot"、META NAME="Baiduspide" 等。
content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,就有了以下的四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接;
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接;
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
通过robots.txt
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
第一种方法:限制网页快照
限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">
限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">
第二种方法:禁止搜索引擎抓取本页面和搜索引擎引用页面
<meta name="robots" conrent="noindex,follow">
在这里,META NAME="ROBOTS" 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。
例如:META NAME="Googlebot"、META NAME="Baiduspide" 等。
content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。
INDEX命令:告诉搜索引擎抓取这个页面
FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。
NOINDEX命令:告诉搜索引擎不允许抓取这个页面
NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
根据以上的命令,就有了以下的四种组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接;
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接;
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。
通过robots.txt
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
相关文章推荐
- 10个提供免费PHP脚本下载的网站
- [CAMCOCO][C#]我的系统架构.服务器端.(四)----Model层 实体的自我验证
- 10月理钓鱼网站简报:非CN域名9743个 环比涨5.5倍
- 网站内部结构优化
- Activity堆栈式管理
- 如何做到让各大搜索引擎收录你的网站!
- 网站状态码大全
- ASP.NET编程获取网站根目录方法小结
- 网站改版进行时,需要注意的
- IOS开发常用技术网站
- OpenGL学习常用网站
- 构建高并发高可用的电商平台架构实践
- 微软正式上线Win10商店企业版 用于商业的门户网站
- KeepAlived+LVS集群架构方案学习笔记
- 网站多语言转换.利用Google 语言的js.贴到网站就能用.
- ASP.NET编程获取网站根目录方法小结
- 建站公司制作企业网站时动辄收费数万的原因
- 天下数据教你如何实现一个空间放多个网站
- 建站常用--CMS discuz wordpress
- 南大软院大神养成计划-第一天 网站优化