网站后台禁止搜索引擎抓取
2014-02-10 22:08
302 查看
页面的各大meta标签noindex、nofollow、noarchive及nosnippet用法索引擎更好地理解你的网站内容的种类 . 比如Yahoo!的noodp Meta标签 ,作用就是防止搜索引擎调用ODP上面的描述性语句 .
Google所支持的Meta标签也不少
,比如Google官方讲解的就有noindex、nofollow、noarchive及nosnippet . 如果你对Google的长篇大论感到厌倦
,下面的介绍你将容易理解的多:
noindex:告诉Google不要索引含此标签的网页 . 但根据实际经验 ,Google并非100%遵守 .
nofollow:告诉Google不要关注含此标签的网页里的特定链接 . 这是为了解决链接SPAM而设计的Meta标签 .
noarchive:告诉Google不要保存含此标签的网页的快照 . nosnippet:告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句
,并且不要在列表里显示快照链接
相关用法:NOINDEX指令:表示拒绝Robot索引本页 ,但可跟踪该页上的链接;如果某个页面不想被索引
,那么添加noindex属性就可以了
Robots用来告诉搜索机器人哪些页面需要索引 ,哪些页面不需要索引 .
Content的参数有all、none、index、noindex、 follow、nofollow . 默认是all .
用法:<Meta name="Robots"
Content="All|None|Index|Noindex|Follow|Nofollow"> all:文件将被检索
,且页面上的链接可以被查询;
none:文件将不被检索 ,且页面上的链接不可以被查询;(和 "noindex, no follow" 起相同作用)
index:文件将被检索;(让robot/spider登录) ollow:页面上的链接可以被查询;NOINDEX指令:表示拒绝Robot索引本页
,但可跟踪该页上的链接;如果某个页面不想被索引 ,那么添加noindex属性就可以了.
Robots用来告诉搜索机器人哪些页面需要索引
,哪些页面不需要索引 . Content的参数有all、none、index、noindex、 follow、nofollow . 默认是all
. 用法:<Meta name="Robots"
Content="All|None|Index|Noindex|Follow|Nofollow"> all:文件将被检索 ,且页面上的链接可以被查询;
none:文件将不被检索 ,且页面上的链接不可以被查询;(和 "noindex, no follow"
起相同作用) index:文件将被检索;(让robot/spider登录) follow:页面上的链接可以被查询; noindex:文件将不被检索
,但页面上的链接可以被查询;(不让robot/spider登录)
nofollow:文件将不被检索 ,页面上的链接可以被查询 .
(不让robot/spider顺着此页的连接往下探找
Google所支持的Meta标签也不少
,比如Google官方讲解的就有noindex、nofollow、noarchive及nosnippet . 如果你对Google的长篇大论感到厌倦
,下面的介绍你将容易理解的多:
noindex:告诉Google不要索引含此标签的网页 . 但根据实际经验 ,Google并非100%遵守 .
nofollow:告诉Google不要关注含此标签的网页里的特定链接 . 这是为了解决链接SPAM而设计的Meta标签 .
noarchive:告诉Google不要保存含此标签的网页的快照 . nosnippet:告诉Google不要在搜索结果页的列表里显示含此标签的网站的描述语句
,并且不要在列表里显示快照链接
相关用法:NOINDEX指令:表示拒绝Robot索引本页 ,但可跟踪该页上的链接;如果某个页面不想被索引
,那么添加noindex属性就可以了
Robots用来告诉搜索机器人哪些页面需要索引 ,哪些页面不需要索引 .
Content的参数有all、none、index、noindex、 follow、nofollow . 默认是all .
用法:<Meta name="Robots"
Content="All|None|Index|Noindex|Follow|Nofollow"> all:文件将被检索
,且页面上的链接可以被查询;
none:文件将不被检索 ,且页面上的链接不可以被查询;(和 "noindex, no follow" 起相同作用)
index:文件将被检索;(让robot/spider登录) ollow:页面上的链接可以被查询;NOINDEX指令:表示拒绝Robot索引本页
,但可跟踪该页上的链接;如果某个页面不想被索引 ,那么添加noindex属性就可以了.
Robots用来告诉搜索机器人哪些页面需要索引
,哪些页面不需要索引 . Content的参数有all、none、index、noindex、 follow、nofollow . 默认是all
. 用法:<Meta name="Robots"
Content="All|None|Index|Noindex|Follow|Nofollow"> all:文件将被检索 ,且页面上的链接可以被查询;
none:文件将不被检索 ,且页面上的链接不可以被查询;(和 "noindex, no follow"
起相同作用) index:文件将被检索;(让robot/spider登录) follow:页面上的链接可以被查询; noindex:文件将不被检索
,但页面上的链接可以被查询;(不让robot/spider登录)
nofollow:文件将不被检索 ,页面上的链接可以被查询 .
(不让robot/spider顺着此页的连接往下探找
相关文章推荐
- 从SEO角度出发,我们应该禁止搜索引擎对网站分页的抓取
- 如何禁止搜索引擎爬虫(Spider)抓取网站页面
- 网站禁止网络搜索引擎的抓取三种方法
- 解决:java 抓取网站内容---403(禁止访问代号)
- Nginx反爬虫攻略:禁止某些User Agent抓取网站
- Using Django with GAE Python 后台抓取多个网站的页面全文
- 网站优化中如何提高搜索引擎的抓取频次
- 有效引导搜索引擎 抓取优化网站内部链接
- 如何使用robots语法禁止搜索引擎蜘蛛抓取图片
- 如何不让搜索引擎抓取你的网站信息…
- 服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站(转)
- 什么样的网站设计有利于搜索引擎抓取页面
- 用robots.txt禁止搜索引擎搜索你的网站内容
- 利用html标签限制搜索引擎对网站的抓取收录
- 如何不让搜索引擎抓取你的网站信息…
- 百度禁止网站使用QQ、手机抓取工具
- 禁止所有搜索引擎访问网站的任何部分
- Using Django with GAE Python 后台抓取多个网站的页面全文
- 怎样控制搜索引擎抓取我们网站的哪些内容?
- 搜索引擎是如何抓取网站内容的