robots.txt文件详细教程--九模板

robots文件是网站和各大搜索引擎树立杰出交流的桥梁，也是网站从搜索引擎取得流量的初步第一步，由于robots的设置不妥，很有或许会失掉很大一部分的流量。关于SEO优化的从业者或者是爱好者，有必要要知道其间的原理和设置办法，关于网站管理员及相关的开发技术人员，了解robots.txt文件的设置办法是一项额定加分的作业技术。网上也有许多的相关教程，但总是残缺不全或难以了解，所以决议详细的整理一遍。

robots.txt的效果是什么？

robots.txt文件只要一个效果：用于屏蔽一个或多个搜索引擎制止录入你网站上的内容。默许情况下网站都是答应任何搜索引擎抓取和录入页面的，但出于某种意图，你能够屏蔽某个或多个搜索引擎录入你网站上的页面，为了达到这一一致，所以robots协议就顺畅诞生了，一切的搜索引擎都遵从robots协议。

每个搜索引擎都一个被称为蜘蛛（spider）或机器人（bot）的程序，咱们习惯上称之为“蜘蛛”，在决议是否抓取你的网站页面时，蜘蛛会首要查看你网站的根目录里边是否存在robots.txt文件，假如没有robots.txt则阐明是答应悉数抓取的；假如存在robots.txt文件，蜘蛛会辨认里边有没有自己的称号在被回绝之列，然后再判别你设置的那些内容是不答应抓取的，再进行网页的抓取和录入。

robots.txt文件的写法

根本语法

默许情况下是整个网站悉数答应被任何搜索引擎抓取录入的，robots.txt只用于制止搜索引擎录入，所以只需求增加搜索引擎蜘蛛的称号（User-agent）和disallow（制止录入的内容）即可，特别情况下也能够运用allow语法。

User-agent:*
Disallow:/
Allow:*.html$
#搜索引擎优化

需求留意首字母大写，冒号后边是英文状况下的一个空格，用“井号”来表明注释阐明，支撑 "*" 匹配0或多个恣意字符，"$" 匹配行完毕符，对大小写灵敏，所以要留意文件或文件夹的称号准确匹配，为了搜索引擎能更好地辨认robots.txt文件，主张保存编码设置为ANSI编码，下面举例阐明各种用法及设置。

robots.txt各种写作办法

1、屏蔽一切的搜索引擎录入任何页面

屏蔽搜索引擎的搜索引擎只需求把user-agent设置为*即可，如下所示，而disallow后边的斜杠则表明根目录，自根目录以下的任何内容均不答应录入，两行代码即可。

User-agent:*
Disallow:/

2、答应一切的搜索引擎录入一切页面

一切的搜索引擎均答应，能够把robots.txt文件里边的内容悉数删去，即保存一个空文件就行，还能够运用下面的代码来阐明。

User-agent:*
Allow:/

3、仅答应指定的搜索引擎录入

需求把搜索引擎蜘蛛的称号写在前面，最终运用*来匹配悉数，代码如下。仅答应百度和谷歌录入，其他搜索引擎悉数制止。

User-agent:baiduspider
Allow:/
User-agent:googelebot
Allow:/
User-agent:*
Disallow:/

第5、6两句是制止一切的，前面答应了指定的蜘蛛称号，所以除了被答应的百度和谷歌蜘蛛，其他的搜索引擎都不能录入的网站页面了。

4、制止指定的搜索引擎录入

假如仅仅想有针对性的屏蔽某个或多个搜索引擎，比方制止百度和谷歌蜘蛛，写法如下。

User-agent:baiduspider
Disallow:/
User-agent:googelebot
Disallow:/
User-agent:*
Allow:/

由于默许是allow状况的，所以第5句、6句一般不写。只写disallow的部分。你或许现已发现了，user-agent后边只能是详细的蜘蛛称号或星号，而disallow和allow后边的内容是全站时均运用斜杠而不是其他契合，由于他们后边的是指网站的目录，所以在指向目录时就不能运用其他契合，比方“disallow：*”这个写法就错了。

制止抓取和录入目录及文件的写作语法，下面别离举例阐明。

1、制止搜索引擎录入指定的目录

User-agent:*
Disallow:/asf/
Disallow:/2020/

上的意思是关于一切的搜索引擎，均制止录入asf和2020文件夹里边的任何内容。在屏蔽文件夹时最终要加斜杠完毕，假如这样写“Disallow: /2020”，完毕没有加斜杠，则表明根目录下以2020最初的网址均被制止，如/2020.html、/2020abc.html、/2020/df.html均被制止录入，所以在写作disallow屏蔽目录时千万不要弄错了。

2、答应搜索引擎录入制止目录中的特定URL

假如屏蔽了某个目录“df”，可是又期望df这个目录中指定的网页被录入怎么办，运用下面的语法即可。

User-agent:*
Allow:/df/111.html
Allow:/df/*22c.php
Disallow:/df/

allow要写在前面，后边再紧跟着写屏蔽的目录称号。这种写法比较少用，一般都是直接屏蔽目录就没有必要再答应其间的某几个或某一类url还要被录入了，上面代码第2句指答应录入根目录df文件夹里边的111.html这个页面，第3句指答应录入根目录df目录下包括“22c.php”的一切url均答应录入，第4句是制止录入df目录下的悉数url，答应录入的写在前面。

3、运用星号来匹配某一类网址

星号能够匹配一种类型的网址，极大地提高了设置的方便性，在运用过程中要熟练掌握，SEO优化的设置中假如经常会遇到屏蔽某一类型的网址，运用*就十分常见。

User-agent:*
Disallow:/abc/
Disallow:/*?*
Disallow:/rt/jc*
Disallow:/*.php
Disallow:/*ps*

第3句制止录入动态网址，第4句制止录入rt目录下以jc最初的url，第5句制止录入包括“.php”的url（包括以.php完毕的url在内，如h.php、as.php?id=2、dd.php23.html均被制止），第6句制止录入网址中含有“ps”的url。

4、运用$来匹配URL完毕

假如需求屏蔽某类型完毕的url或文件，此刻就需求用到完毕匹配符号“$”。

User-agent:*Disallow:/abc/*ty.php$Disallow:/*.php$Disallow:/*.jpg$

上面第2句制止录入abc目录下以ty.php完毕的url，第3句制止录入全站以.php完毕的url，第4句制止录入全站jpg格局的图片。能够看到假如是屏蔽详细的某一类后缀名url则需求以$作为完毕。

5、制止搜索引擎录入图片语法

制止录入网站图片首要用到$和*匹配符，写法也是很简单的。

User-agent:*
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.png$
Disallow:/*.gif$

以上别离是制止录入全站jpg/jpeg/png/gif格局的图片。

6、只答应搜索引擎录入静态页面

User-agent:*
Allow:/*.html$
Disallow:/

合作allow来运用，制止录入全站任何url，然后运用allow来答应录入以“.html”完毕的url即可。

以上便是悉数robots文件的写法，其间难点是通配符星号的是用和完毕符$的运用，要学会灵敏的触类旁通，在每写完一条记载时都要保证没有屏蔽错url，每行一条记载。关于robots.txt文件，每一次在写完之后都仔细查看一遍，写错了丢失就大了。

标签：

声明：有的资源均来自网络转载，版权归原作者所有，如有侵犯到您的权益请联系邮箱：123456@qq.com 我们将配合处理！

原文地址：robots.txt文件详细教程发布于2022-05-02 07:43:19