分类

HTML属性提取器

从HTML内容中提取指定属性(href、src、data-*等),支持标签名称过滤

功能

从任何HTML内容中提取和分析HTML属性:

  • 定向提取:指定要提取的确切属性(href、src、id、class等)
  • 标签过滤:将提取限制为特定的HTML元素(a、img、div等)
  • 数据属性:支持带有通配符匹配的data-*属性
  • URL分析:可选的URL组件解析和验证
  • 统计信息:每个属性的综合统计(计数、唯一值、空计数)
  • 位置跟踪:源引用的行号和字符位置

支持的属性

  • 标准HTML属性:href、src、alt、title、id、class等
  • 数据属性:data-、data-id、data-custom-
  • 自定义属性:HTML元素中存在的任何属性

使用场景

  • 从HTML页面提取所有链接
  • 查找所有图像源
  • 分析数据属性以进行跟踪分析
  • SEO链接审计和验证
  • 资源URL提取和验证
  • HTML结构分析

可选:仅从特定HTML元素提取

在指定或使用data-*通配符时提取data-*属性

将URL解析为协议、域名和路径组件

关键信息

分类
Development
输入类型
textarea, select, checkbox
输出类型
json
样本覆盖
4
支持 API
Yes

概览

HTML属性提取器是一款专为开发者和SEO人员设计的实用工具,能够从HTML代码中精准提取href、src、data-*等指定属性,并支持按标签名称进行过滤,快速获取所需数据。

适用场景

  • 需要从网页或HTML片段中批量提取所有链接(href)或图片源(src)时。
  • 需要分析页面中用于跟踪或配置的data-*数据属性时。
  • 进行SEO审计,需要检查链接结构或资源引用时。

工作原理

  • 在输入框中粘贴完整的HTML代码或片段。
  • 选择要提取的属性(如href、src、data-*),并可选择按特定标签(如<a>、<img>)进行过滤。
  • 工具解析HTML DOM结构,根据设定提取所有匹配的属性值。
  • 输出结构化的JSON结果,包含提取的属性值、统计信息及在源码中的位置。

使用场景

从网站页面中提取所有外部链接,用于死链检查或链接图谱分析。
查找页面中所有图片的src地址,检查是否有缺失或使用了错误的资源。
分析前端代码中嵌入的data-*属性,理解其用于用户行为跟踪或组件配置的逻辑。

用户案例

1. 提取页面所有导航链接

前端开发者
背景原因
在进行网站重构时,需要收集旧版页面中所有导航菜单的链接地址,以确保新页面链接完整性。
解决问题
手动从复杂的HTML中查找所有<a>标签的href属性效率低下且容易遗漏。
如何使用
将页面HTML代码粘贴到输入框,在“要提取的属性”中选择“href”,在“按标签名称过滤”中选择“<a>(锚点)”。
效果
工具输出一个包含所有导航链接href值的列表,并统计了链接总数,方便开发者核对与迁移。

2. 分析按钮点击跟踪属性

数据分析师
背景原因
产品页面上有多个按钮,每个按钮都通过data-action和data-category属性记录用户点击行为,需要汇总这些配置。
解决问题
需要从大量HTML中找出所有按钮元素及其关联的data-*跟踪属性。
如何使用
粘贴产品页HTML,选择提取“data-*”属性,并在标签过滤中选择“<button>”。
效果
获得所有按钮元素的data-action、data-category等属性值列表,清晰展示了事件跟踪的配置情况。

3. 审计图片资源与Alt文本

SEO专员
背景原因
为提升网站可访问性和SEO表现,需要检查所有图片是否包含描述性的alt文本以及src是否有效。
解决问题
需要同时提取图片的src(来源)和alt(替代文本)属性进行交叉检查。
如何使用
在属性选择中同时勾选“src”和“alt”,标签过滤选择“<img>(图像)”,然后粘贴页面HTML。
效果
输出结果清晰列出了每张图片的地址和对应的alt文本,便于快速定位缺失alt或src异常的图片。

用 Samples 测试

html

相关专题

常见问题

可以提取哪些类型的属性?

支持提取所有标准HTML属性(如href、src、alt、title、id、class)以及自定义的data-*数据属性。

如何只提取特定标签内的属性?

使用“按标签名称过滤”选项,选择如<a>、<img>等标签,工具将仅从这些元素中提取属性。

data-*通配符是什么意思?

选择“data-*”选项可以提取元素上所有以“data-”开头的自定义数据属性,无需逐个指定。

“解析URL组件”功能有什么用?

启用后,工具会将提取到的URL(如href、src)进一步拆分为协议、域名、路径等组成部分,便于分析。

输出结果包含什么信息?

输出为JSON格式,包含提取到的属性值列表、每个属性的出现次数、唯一值数量,以及它们在源HTML中的行号位置。

API 文档

请求端点

POST /zh/api/tools/html-attribute-extractor

请求参数

参数名 类型 必填 描述
htmlContent textarea -
attributes select -
tagFilter select 可选:仅从特定HTML元素提取
includeDataAttributes checkbox 在指定或使用data-*通配符时提取data-*属性
extractUrlComponents checkbox 将URL解析为协议、域名和路径组件

响应格式

{
  "key": {...},
  "metadata": {
    "key": "value"
  },
  "error": "Error message (optional)",
  "message": "Notification message (optional)"
}
JSON数据: JSON数据

AI MCP 文档

将此工具添加到您的 MCP 服务器配置中:

{
  "mcpServers": {
    "elysiatools-html-attribute-extractor": {
      "name": "html-attribute-extractor",
      "description": "从HTML内容中提取指定属性(href、src、data-*等),支持标签名称过滤",
      "baseUrl": "https://elysiatools.com/mcp/sse?toolId=html-attribute-extractor",
      "command": "",
      "args": [],
      "env": {},
      "isActive": true,
      "type": "sse"
    }
  }
}

你可以串联多个工具,比如:`https://elysiatools.com/mcp/sse?toolId=png-to-webp,jpg-to-webp,gif-to-webp`,最多20个。

如果遇见问题,请联系我们:[email protected]