SEO基础知识——禁止收录机制
2014-04-04 15:18
197 查看
要确保页面不被收录,需要使用robots文件或Meta Robots标签。
一、robots文件
robots.txt位于网站根目录,用于指令搜索引擎禁止或允许抓取哪些内容。
robots文件由记录组成,记录之间以空行分开。记录格式为:<域>:<可选空格><域值><可选空格>
最简单的robots文件:
User-agent:*
Disallow:/
上面这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜素引擎。
只适用于百度蜘蛛用:User-agent:Baiduspider;
只适用于Google蜘蛛则用:User-agent:Googlebot。
Disallow:告诉蜘蛛不要抓取某些文件或目录,必须分开写,每个一行。
Allow:告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取,Allow单独写没有意义,和Disallow配合使用,可以告诉
蜘蛛某个目录下大部分不允许抓取,至允许抓取一部分。例如:
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
$通配符:匹配URL结尾的字符。例如,允许蜘蛛抓取以.htm为后缀的URL:
User-agent: *
Allow: .htm$
*通配符:告诉蜘蛛匹配任意一段字符。例如,禁止蜘蛛抓取所有.htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:Sitemap:<网站地图位置>
NOTE:
主流搜索引擎都遵守robots文件指令,但被robots文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是可能以下面几种形式显示在搜索结果中:
1、只显示URL,没有标题、描述。Google常这样处理。
2、显示开放目录或雅虎等重要目录收录的标题和描述。
3、导入链接的锚文字显示为标题和描述。百度常这样处理。
要想使URL完全不出现在搜索结果中,需要在页面上使用meta robots标签
二、meta robots标签
meta robots标签式页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容。
最简单的meta robots标签格式为:
<meta name=”robots” content=”noindex,nofollow”>
上面标签的意义是禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
Google、必应、雅虎都支持的meta robots标签如下。
NOINDEX: 告诉蜘蛛不要索引本页面。
NOFOLLOW: 告诉蜘蛛不要跟踪本页面上的链接。
NOSNIPPET: 告诉搜索引擎不要再搜索结果中显示说明文字。
NOARCHIVE: 告诉搜素引擎不要显示快照。
NOODP: 告诉搜索引擎不要使用开放目录中的标题和说明。
百度的官方说法是目前只支持NOFOLLOW和NOARCHIVE。
meta robots标签内容可以写在一起,以逗号间隔,中间可以有空格,也可以没有,不区分大小写。
<meta name=”robots” content=”noindex”>效果是禁止索引本页面,但允许蜘蛛跟踪页面上的链接,也可以传递权重。
NOTE:
使用了noindex meta robots标签的页面会被抓去,但不会被索引,页面URL不会出现在搜索结果中,这一点与robots文
件不同。
一、robots文件
robots.txt位于网站根目录,用于指令搜索引擎禁止或允许抓取哪些内容。
robots文件由记录组成,记录之间以空行分开。记录格式为:<域>:<可选空格><域值><可选空格>
最简单的robots文件:
User-agent:*
Disallow:/
上面这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜素引擎。
只适用于百度蜘蛛用:User-agent:Baiduspider;
只适用于Google蜘蛛则用:User-agent:Googlebot。
Disallow:告诉蜘蛛不要抓取某些文件或目录,必须分开写,每个一行。
Allow:告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取,Allow单独写没有意义,和Disallow配合使用,可以告诉
蜘蛛某个目录下大部分不允许抓取,至允许抓取一部分。例如:
User-agent: *
Disallow: /ab/
Allow: /ab/cd/
$通配符:匹配URL结尾的字符。例如,允许蜘蛛抓取以.htm为后缀的URL:
User-agent: *
Allow: .htm$
*通配符:告诉蜘蛛匹配任意一段字符。例如,禁止蜘蛛抓取所有.htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:Sitemap:<网站地图位置>
NOTE:
主流搜索引擎都遵守robots文件指令,但被robots文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是可能以下面几种形式显示在搜索结果中:
1、只显示URL,没有标题、描述。Google常这样处理。
2、显示开放目录或雅虎等重要目录收录的标题和描述。
3、导入链接的锚文字显示为标题和描述。百度常这样处理。
要想使URL完全不出现在搜索结果中,需要在页面上使用meta robots标签
二、meta robots标签
meta robots标签式页面head部分meta标签的一种,用于指令搜索引擎禁止索引本页内容。
最简单的meta robots标签格式为:
<meta name=”robots” content=”noindex,nofollow”>
上面标签的意义是禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
Google、必应、雅虎都支持的meta robots标签如下。
NOINDEX: 告诉蜘蛛不要索引本页面。
NOFOLLOW: 告诉蜘蛛不要跟踪本页面上的链接。
NOSNIPPET: 告诉搜索引擎不要再搜索结果中显示说明文字。
NOARCHIVE: 告诉搜素引擎不要显示快照。
NOODP: 告诉搜索引擎不要使用开放目录中的标题和说明。
百度的官方说法是目前只支持NOFOLLOW和NOARCHIVE。
meta robots标签内容可以写在一起,以逗号间隔,中间可以有空格,也可以没有,不区分大小写。
<meta name=”robots” content=”noindex”>效果是禁止索引本页面,但允许蜘蛛跟踪页面上的链接,也可以传递权重。
NOTE:
使用了noindex meta robots标签的页面会被抓去,但不会被索引,页面URL不会出现在搜索结果中,这一点与robots文
件不同。
相关文章推荐
- cost: what will cost when we innovate
- Jquery 验证省市区
- js判断输入按键
- [hdu 2006] 求奇数的乘积
- 安全的str操作
- SQL判断一个字段是否是数字的办法
- 7.3 Pinpointing the Location of a Device
- form表单使用onsubmit但return false后仍然提交的解决办法?
- 多线程编程Peterson算法
- oracle存储过程学习(二)-调用存储过程和返回结果集
- 通过网页的JS代码启动移动APP
- Linux进程间通信(四)---信号通信之信号发送捕捉kill()、raise()、alarm()、pause()及其基础实验
- Android之SurfaceView学习
- JavaScript可折叠弹出式菜单
- 根据二叉树的前序数组和中序数组生成二叉树
- 进程和线程的区别
- Generate Parentheses
- TCP/IP协议与UDP协议的区别
- linux CentOS 6.4 NFS网络文件系统 推荐
- 占鳌头。当雪花沁透着