在线robots.txt文件生成工具

+ 选择文件
二维码
打赏支持
复制链接
反馈建议

工具加载中...

工具简介

在线robots.txt文件生成工具，可以帮助站长快速生成标准的robots.txt文件，支持一键导出，直接传到网站根目录即可。

小经验：强烈建议每个站根目录都放置一个robots.txt的文件，可以直接留空，但一定要放，避免因程序问题导致/robots.txt返回其他错误响应内容造成不可预知的结果，如搜索引擎不收录等。

Robots协议（爬虫协议）是国际互联网界通行的道德规范，一般是在一个web站点的根目录下写的robots.txt文件，用来告知搜索引擎哪些页面能被抓取，哪些页面不能被抓取，可以屏蔽一些网站中比较大的文件，如：图片，音乐，视频等，节省服务器带宽；可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容；设置网站地图连接，方便引导蜘蛛爬取页面。

robots.txt基本用法
User-agent
User-agent是用来匹配爬虫的，每个爬虫都会有一个名字，如果你有安装awstats统计工具，你就能查看到爬虫的名字，比如百度的爬虫叫BaiDuSpider，Google的爬虫叫Googlebot，*表示所有爬虫。

Disallow
Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow
Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap
Sitemap用来指定sitemap的位置。

Crawl-delay
Crawl-delay用来告诉爬虫两次访问的间隔，单位是秒。爬虫如果爬得很勤，对动态网站来说，压力有点大，可能会导致服务器负载增高，用户访问变慢。

还可以使用通配符
*：匹配任意多个字符
$：表示URL的结尾

Robots.txt举例
不管是Disallow，Allow还是Sitemap，每行只能写一条规则。

拦截部分文件或目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /aaa.html

允许爬虫访问所有的目录，有两种写法
User-agent: *
Disallow:

User-agent: *
Allow: /

通配符的使用，拦截.gif文件
User-agent: *
Disallow: /*.gif$

拦截带有?的文件
User-agent: *
Disallow: /*?

Sitemap例子
Sitemap: https://uutool.cn/sitemap.xml

🧡 支持我们，用心做好工具

你的每一次打赏，都是我们前进的动力，助力我们打造更多优质工具。

在线robots.txt文件生成工具

工具简介

最新工具

🧡 支持我们，用心做好工具