robots.txt文件代码说明实例-趣百科

robots.txt文件代码说明实例

在一个站点的根目录下，而且文件名必须全部小写。要访问robots.txt文件就是在域名后面加“/robots.txt”，比如说访问www.zzrl120.com网站中的robots协议，就应该在地址栏输入www.zzrl120.com/robots.txt 就可以访问了。 robots协议是搜索引擎在爬取网站的时候要查看的第一个文件，文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的，对应的不允许查看的内容，蜘蛛程序是不会查看。

User-agent:*允许所有搜索引擎抓取(注意每个":"后面的描述都是在加上空格之后的，User-agent:空格*)Allow:/允许抓取

Disallow:/admin/后台管理文件

Disallow:/require/程序文件

Disallow:/attachment/附件

Disallow:/images/图片

Disallow:/data/数据库文件

Disallow:/template/模板文件

Disallow:/css/样式表文件

Disallow:/lang/编码文件

Disallow:/script/脚本文件

禁止所有搜索引擎访问网站的任何部分： User-agent: * Disallow: /

允许所有的robot访问： User-agent: * Disallow: 或者 User-agent: * Allow: /

仅禁止Baiduspider访问您的网站：User-agent: BaiduspiderDisallow: /仅允许Baiduspider访问您的网站：User-agent: BaiduspiderDisallow:User-agent: *Disallow: /

禁止spider访问特定目录：（需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"）User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

允许访问特定目录中的部分url：User-agent: *Allow: /cgi-bin/seeAllow: /tmp/hiAllow: /~joe/lookDisallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

使用"*"限制访问url：User-agent: *Disallow: /cgi-bin/*.htm

使用"$"限制访问url：User-agent: *Allow: .htm$Disallow: /

禁止访问网站中所有的动态页面：User-agent: *Disallow: /*?*

禁止Baiduspider抓取网站上所有图片：（若是某一张图片，就是指到对应的图片路径和名称即可）User-agent: BaiduspiderDisallow: .jpg$Disallow: .jpeg$Disallow: .gif$Disallow: .png$Disallow: .bmp$

仅允许Baiduspider抓取网页和.gif格式图片：User-agent: BaiduspiderAllow: .gif$Disallow: .jpg$Disallow: .jpeg$Disallow: .png$Disallow: .bmp$仅禁止Baiduspider抓取.jpg格式图片：User-agent: BaiduspiderDisallow:

robots.txt文件代码说明实例

相关推荐