robots.txt文件的写法和用法
编辑:Simone
2025-01-28 03:16:33
558 阅读
robots.txt是一个网站与网络爬虫蜘蛛进行沟通的重要文件,网络爬虫spider通过robots.txt对一个网站的访问权限进行控制
robots.txt文件,放在哪里?该文件必须放在网站的根目录中,如百度的
robots.txt的基本格式,首先指定一个蜘蛛爬虫,然后指定允许和禁止访问的部分,如:
# 指定一个蜘蛛爬虫
User-agent: Baiduspider
# 指定Baiduspider允许访问的目录
Allow: /access/
# 指定Baiduspider禁止访问的目录
Disallow: /admin/
robots.txt的注释怎么写?注释的不是指令的一部分,主要作用是用于网站管理员的查看和阅读,注释以#号开始,如:
# 这一行是注释的部分
robots.txt文件怎么禁止蜘蛛爬虫的访问,Disallow是禁止访问的指令,如:
# 禁止所有爬虫访问网站
User-agent: *
Disallow: /
robots.txt文件怎么允许指定蜘蛛爬虫的可以访问,其他爬虫不可能访问,如:
# 允许百度Spider访问网站
User-agent: Baiduspider
Allow: /
# 禁止百度Spider以外的其他爬虫访问
User-agent: *
Disallow: /
版权声明:本站【趣百科】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.qubaik.com/answer/125474.html