关键信息
- 分类
- 安全与校验
- 输入类型
- textarea, file, text
- 输出类型
- json
- 样本覆盖
- 4
- 支持 API
- Yes
概览
Robots.txt 静态审查器是一款专为网站管理员和 SEO 专家设计的在线校验工具。它能够快速检测 robots.txt 文件的语法错误、识别潜在的抓取风险规则,并支持输入测试 URL 列表来模拟验证搜索引擎爬虫的访问权限,确保关键页面不被误封,同时保护隐私路径。
适用场景
- •在发布或更新网站的 robots.txt 文件前,需要确保语法正确且无逻辑冲突。
- •网站改版或调整目录结构后,需要验证特定 URL(如后台管理或支付页面)是否已被正确屏蔽或放行。
- •诊断搜索引擎无法抓取某些页面,或者不希望被索引的页面却出现在搜索结果中时。
工作原理
- •输入 robots.txt 的文本内容,或者直接上传本地的 robots.txt 配置文件。
- •填写站点的源地址(Site Origin)以及需要测试的 URL 路径列表。
- •系统将静态解析 User-agent、Disallow、Allow 和 Sitemap 等指令,校验语法合规性。
- •运行模拟匹配算法,输出测试 URL 的可访问性状态及语法错误摘要报告。
使用场景
用户案例
1. 修复缺失冒号的语法错误
SEO 专员- 背景原因
- 准备上线新的 robots.txt 规则,但不确定手写的指令是否完全符合规范。
- 解决问题
- 误将 `Disallow: /admin` 写成了 `Disallow /admin`(漏掉了冒号),需要找出此类语法错误并测试受影响的 URL。
- 如何使用
- 在“Robots.txt 内容”中输入包含错误的文本,在“测试 URL”中输入 `/admin` 和 `/blog`,点击运行。
- 示例配置
-
robotsText: "User-agent: *\nDisallow /admin\nAllow: /admin/help"\nsiteOrigin: "https://example.com"\ntestUrls: "/admin\n/admin/help\n/blog" - 效果
- 校验器输出 JSON 结果,指出存在 1 处语法错误(Disallow 缺少冒号),并显示测试 URL 的匹配状态。
2. 验证后台路径屏蔽与帮助页面放行
网站运维工程师- 背景原因
- 网站更新了后台结构,需要屏蔽 `/manage` 目录,但必须允许爬虫抓取 `/manage/faq` 帮助页面。
- 解决问题
- 确认 Allow 和 Disallow 的优先级在主流爬虫解析下是否符合预期。
- 如何使用
- 在文本框中输入 robots.txt 规则,设置站点来源为 `https://mysite.com`,在测试 URL 中输入 `/manage/dashboard` 和 `/manage/faq`。
- 示例配置
-
robotsText: "User-agent: *\nDisallow: /manage\nAllow: /manage/faq"\nsiteOrigin: "https://mysite.com"\ntestUrls: "/manage/dashboard\n/manage/faq" - 效果
- 校验结果显示 `/manage/dashboard` 被成功拦截(Disallowed),而 `/manage/faq` 被正确放行(Allowed)。
用 Samples 测试
text, file相关专题
常见问题
为什么需要校验 robots.txt 的语法?
错误的语法(如漏掉冒号或路径格式错误)可能导致搜索引擎爬虫忽略限制,误抓取敏感页面,或导致整站无法被索引。
站点来源(Site Origin)的作用是什么?
用于将相对路径的测试 URL 补全为绝对路径,以便准确模拟爬虫在特定域名下的匹配行为。
这个工具支持测试哪些爬虫?
工具基于标准的 robots.txt 协议进行静态解析,适用于模拟主流搜索引擎(如 Googlebot、Baiduspider 等)的通用匹配规则。
为什么我的 Sitemap 规则会报错?
Sitemap 指令需要完整的 URL(包含 http/https 协议头),如果只写了相对路径,校验器会提示格式错误。
可以在这里直接测试本地未上线的 robots.txt 吗?
可以,您只需粘贴文本或上传文件,并配合测试 URL 即可在本地完成静态模拟,无需提前部署到线上。