[重庆网站建设公司]在wordpress网站优化过程中的robots.txt爬虫协议
发布时间:2019-04-30    作者: 未知     来源: 网络

当我们在我们的网站上有错误页面时,或者某些页面不希望蜘蛛抓取时,合理配置的机器人协议可以使蜘蛛更有效,更快速地抓取需要抓取的内容。当搜索引擎蜘蛛进入网站时,首先要确定网站根目录目录下是否有robots.txt文件。如果存在,则根据文件的规范对内容进行爬网;如果该文件不存在,则根据默认规则对网站中的所有页面进行爬网。 。因此,本文介绍了一些机器人的语法和常见示例。

网站设置robots.txt的好处:禁止搜索引擎包含页面的一部分;引导蜘蛛爬行站点地图;可以在一定程度上保护网站安全;节省流量等。

Robots基本语法:

1、定义搜索引擎:User-agent。

        User-agent: * #所有的搜索引擎
        User-agent: Baiduspider #百度蜘蛛
        User-agent: Googlebot #谷歌蜘蛛

2、Disallow 禁止爬取。

        Disallow: /admin/ #禁止爬取admin文件夹
        Disallow: /login.html #禁止爬取登录页面

3、Allow 允许。默认情况下,都是允许的。

例如:禁止admin文件夹下的所有文件,除了.html的网页。如果用Disallow一个一个的禁止,太浪费时间了。

此时用Allow就解决这个问题:

        Allow: /admin/.html$ 
        Disallow: /admin/

4、$ 结束符。

例:允许所有的以.html结尾的文件。不管前面有多长的URL,只要以.html结尾都允许

        Allow: .html$

5、* 通配符符号0或多个任意字符。

例:屏蔽所有的动态URL

        User-agent: *
        Disallow: /*?*

6、Sitemap 声明网站地图。

        Sitemap: http://www.xiaowangyun.com/sitemap.xml

7、#: 注释符。

8、版本号

        Robot-version: Version 1.0

注:

        1.robots.txt文件存放在网站根目录下。
        2.文件名所有字母都必须小写(robots.txt)。
        3.User-agent、Disallow、Allow、Sitemap必须是第一个字母大写,后面的字母小写,后面英文字符下的空格。

常用Robots.txt 文件举例

例1、禁止所有搜索引擎访问网站的任何部分

        User-agent: *
        Disallow: /

例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。

        User-agent: *
        Disallow: /admin/
        Disallow: /log/
        Disallow: /bin/

例3、禁止某个搜索引擎抓取网站上的所有图片

        User-agent: *
        Disallow: .jpg$
        Disallow: .jpeg$
        Disallow: .gif$
        Disallow: .png$
        Disallow: .bmp$

声明:本站发布的内容以原创、转载、分享网络内容为主,如有侵权,请联系邮箱: leimon@p7ing.com,我们将会在第一时间删除。文章观点不代表本站立场,如需处理请联系我们。
最新案例 查看更多