您的位置：首页 > 其它

SEO基础知识——禁止收录机制

2014-04-04 15:18 197 查看

要确保页面不被收录，需要使用robots文件或Meta Robots标签。
一、robots文件

robots.txt位于网站根目录，用于指令搜索引擎禁止或允许抓取哪些内容。

robots文件由记录组成，记录之间以空行分开。记录格式为：<域>:<可选空格><域值><可选空格>

最简单的robots文件：

User-agent:*

Disallow:/

上面这个robots文件禁止所有搜索引擎抓取任何内容。

User-agent：指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜素引擎。

只适用于百度蜘蛛用：User-agent：Baiduspider；

只适用于Google蜘蛛则用：User-agent:Googlebot。

Disallow：告诉蜘蛛不要抓取某些文件或目录，必须分开写，每个一行。

Allow：告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取，Allow单独写没有意义，和Disallow配合使用，可以告诉

蜘蛛某个目录下大部分不允许抓取，至允许抓取一部分。例如：

User-agent: *

Disallow: /ab/

Allow： /ab/cd/

$通配符：匹配URL结尾的字符。例如,允许蜘蛛抓取以.htm为后缀的URL：

User-agent: *

Allow: .htm$

*通配符：告诉蜘蛛匹配任意一段字符。例如，禁止蜘蛛抓取所有.htm文件：

User-agent: *

Disallow: /*.htm

Sitemaps位置：告诉蜘蛛XML网站地图在哪里，格式为：Sitemap:<网站地图位置>

NOTE:

主流搜索引擎都遵守robots文件指令，但被robots文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL，搜索引擎就知道这个URL的存在，虽然不会抓取页面内容，但是可能以下面几种形式显示在搜索结果中：

1、只显示URL，没有标题、描述。Google常这样处理。

2、显示开放目录或雅虎等重要目录收录的标题和描述。

3、导入链接的锚文字显示为标题和描述。百度常这样处理。

要想使URL完全不出现在搜索结果中，需要在页面上使用meta robots标签
二、meta robots标签

meta robots标签式页面head部分meta标签的一种，用于指令搜索引擎禁止索引本页内容。

最简单的meta robots标签格式为：

<meta name=”robots” content=”noindex,nofollow”>

上面标签的意义是禁止所有搜索引擎索引本页面，禁止跟踪本页面上的链接。

Google、必应、雅虎都支持的meta robots标签如下。
NOINDEX: 告诉蜘蛛不要索引本页面。
NOFOLLOW: 告诉蜘蛛不要跟踪本页面上的链接。
NOSNIPPET: 告诉搜索引擎不要再搜索结果中显示说明文字。
NOARCHIVE: 告诉搜素引擎不要显示快照。
NOODP: 告诉搜索引擎不要使用开放目录中的标题和说明。

百度的官方说法是目前只支持NOFOLLOW和NOARCHIVE。

meta robots标签内容可以写在一起，以逗号间隔，中间可以有空格，也可以没有，不区分大小写。

<meta name=”robots” content=”noindex”>效果是禁止索引本页面，但允许蜘蛛跟踪页面上的链接，也可以传递权重。
NOTE:

使用了noindex meta robots标签的页面会被抓去，但不会被索引，页面URL不会出现在搜索结果中，这一点与robots文

件不同。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航