Robots.txt 静态审查器

静态检查 robots.txt 语法、风险规则与关键 URL 放行情况,避免误封抓取路径

示例结果

1 个示例

上线前抓出写坏的 Disallow 规则

先检查 robots.txt 草稿,再验证 /admin 和 /blog 这类关键路径是否被误封。

{
  "summary": {
    "errorCount": 1,
    "testedUrlCount": 3
  }
}
查看输入参数
{ "robotsText": "User-agent: *\nDisallow /admin\nAllow: /admin/help", "siteOrigin": "https://example.com", "testUrls": "/admin\n/admin/help\n/blog" }

Click to upload file or drag and drop file here

Maximum file size: 0MB Supported formats: text/plain, application/octet-stream, .txt

关键信息

分类
安全与校验
输入类型
textarea, file, text
输出类型
json
样本覆盖
4
支持 API
Yes

概览

Robots.txt 静态审查器是一款专为网站管理员和 SEO 专家设计的在线校验工具。它能够快速检测 robots.txt 文件的语法错误、识别潜在的抓取风险规则,并支持输入测试 URL 列表来模拟验证搜索引擎爬虫的访问权限,确保关键页面不被误封,同时保护隐私路径。

适用场景

  • 在发布或更新网站的 robots.txt 文件前,需要确保语法正确且无逻辑冲突。
  • 网站改版或调整目录结构后,需要验证特定 URL(如后台管理或支付页面)是否已被正确屏蔽或放行。
  • 诊断搜索引擎无法抓取某些页面,或者不希望被索引的页面却出现在搜索结果中时。

工作原理

  • 输入 robots.txt 的文本内容,或者直接上传本地的 robots.txt 配置文件。
  • 填写站点的源地址(Site Origin)以及需要测试的 URL 路径列表。
  • 系统将静态解析 User-agent、Disallow、Allow 和 Sitemap 等指令,校验语法合规性。
  • 运行模拟匹配算法,输出测试 URL 的可访问性状态及语法错误摘要报告。

使用场景

部署前语法预检:在将 robots.txt 部署到生产环境前,排查拼写错误和格式问题。
敏感路径防漏阻断:验证后台管理路径(如 `/admin`)是否已被 Disallow 规则正确覆盖。
搜索引擎优化排查:测试重要着陆页是否因规则冲突被误设为 Disallow,保障 SEO 收录。

用户案例

1. 修复缺失冒号的语法错误

SEO 专员
背景原因
准备上线新的 robots.txt 规则,但不确定手写的指令是否完全符合规范。
解决问题
误将 `Disallow: /admin` 写成了 `Disallow /admin`(漏掉了冒号),需要找出此类语法错误并测试受影响的 URL。
如何使用
在“Robots.txt 内容”中输入包含错误的文本,在“测试 URL”中输入 `/admin` 和 `/blog`,点击运行。
示例配置
robotsText: "User-agent: *\nDisallow /admin\nAllow: /admin/help"\nsiteOrigin: "https://example.com"\ntestUrls: "/admin\n/admin/help\n/blog"
效果
校验器输出 JSON 结果,指出存在 1 处语法错误(Disallow 缺少冒号),并显示测试 URL 的匹配状态。

2. 验证后台路径屏蔽与帮助页面放行

网站运维工程师
背景原因
网站更新了后台结构,需要屏蔽 `/manage` 目录,但必须允许爬虫抓取 `/manage/faq` 帮助页面。
解决问题
确认 Allow 和 Disallow 的优先级在主流爬虫解析下是否符合预期。
如何使用
在文本框中输入 robots.txt 规则,设置站点来源为 `https://mysite.com`,在测试 URL 中输入 `/manage/dashboard` 和 `/manage/faq`。
示例配置
robotsText: "User-agent: *\nDisallow: /manage\nAllow: /manage/faq"\nsiteOrigin: "https://mysite.com"\ntestUrls: "/manage/dashboard\n/manage/faq"
效果
校验结果显示 `/manage/dashboard` 被成功拦截(Disallowed),而 `/manage/faq` 被正确放行(Allowed)。

用 Samples 测试

text, file

相关专题

常见问题

为什么需要校验 robots.txt 的语法?

错误的语法(如漏掉冒号或路径格式错误)可能导致搜索引擎爬虫忽略限制,误抓取敏感页面,或导致整站无法被索引。

站点来源(Site Origin)的作用是什么?

用于将相对路径的测试 URL 补全为绝对路径,以便准确模拟爬虫在特定域名下的匹配行为。

这个工具支持测试哪些爬虫?

工具基于标准的 robots.txt 协议进行静态解析,适用于模拟主流搜索引擎(如 Googlebot、Baiduspider 等)的通用匹配规则。

为什么我的 Sitemap 规则会报错?

Sitemap 指令需要完整的 URL(包含 http/https 协议头),如果只写了相对路径,校验器会提示格式错误。

可以在这里直接测试本地未上线的 robots.txt 吗?

可以,您只需粘贴文本或上传文件,并配合测试 URL 即可在本地完成静态模拟,无需提前部署到线上。

API 文档

请求端点

POST /zh/api/tools/robots-txt-lint-validator

请求参数

参数名 类型 必填 描述
robotsText textarea -
robotsFile file (需要先上传) -
siteOrigin text -
testUrls textarea -

文件类型参数需要先通过 POST /upload/robots-txt-lint-validator 上传获取 filePath,然后将 filePath 传递给对应的文件字段。

响应格式

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
JSON数据: JSON数据

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-robots-txt-lint-validator": {
      "name": "robots-txt-lint-validator",
      "description": "静态检查 robots.txt 语法、风险规则与关键 URL 放行情况,避免误封抓取路径",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=robots-txt-lint-validator",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

支持 URL 文件链接或 Base64 编码作为文件参数。

如果遇见问题,请联系我们:[email protected]