叶哥seo培训

提供网站关键词排名优化培训

当前位置:首页 » 零基础seo入门教程 » 什么是robots文件?robots文件常见写法解读(完整版)

什么是robots文件?robots文件常见写法解读(完整版)

2020年5月6日 10:06 星期三 yege 零基础seo入门教程

什么是robots文件

robots协议(也称为爬虫协议、爬虫规则、机器人协议 等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。

robots文件作用

1、告诉搜索引擎哪些内容可以访问;

2、禁止搜索引擎爬取部分页面,比如网站后台、死链接、隐私内容、重复页面等;

3、引导蜘蛛爬取网站地图,可以在文件中放上地图地址;

Robots.txt文件存放位置

Robots.txt都是存放在网站根目录下面,比如叶哥SEO培训,robots.txt文件地址就是http://www.yegeboke.com/robots.txt这个文件,当蜘蛛访问我们网站时,首先就是访问robots.txt文件,然后根据其内容识别访问权限。

Robots.txt文件的常见写法说明

1. 允许所有蜘蛛访问所有文件

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

其他:

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

此外,百度站长平台也有robots工具,可以用来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。


版权说明:本文由叶哥seo培训原创编辑,文章地址:http://www.yegeboke.com/post-87.html,转载请注明出处!

标签: robots

发表评论: