关键信息
- 分类
- Media
- 输入类型
- file, number
- 输出类型
- json
- 样本覆盖
- 4
- 支持 API
- Yes
概览
静音区间映射工具是一款高效的音频分析工具,能够自动检测音频文件中的静音片段,并将其精确的时间戳以 JSON 或 CSV 格式输出,帮助用户快速定位音频中的空白部分。
适用场景
- •需要从长录音中快速定位并剪除无效静音片段时。
- •在进行语音转文字(ASR)预处理,需要根据静音点进行分段时。
- •分析播客或访谈音频的节奏,统计说话人停顿频率时。
工作原理
- •上传您的音频文件,系统将自动加载并准备分析。
- •设置静音阈值(dB)和最小静音时长(秒),以定义您所需的静音标准。
- •点击运行,工具将通过 silencedetect 算法扫描音频。
- •获取包含所有静音区间开始与结束时间戳的 JSON 或 CSV 数据。
使用场景
用户案例
1. 播客录音自动剪辑
音频后期制作人- 背景原因
- 录制了一段 2 小时的访谈,中间包含大量嘉宾思考时的长停顿。
- 解决问题
- 手动查找并剪掉这些停顿非常耗时,需要批量获取时间点。
- 如何使用
- 上传音频文件,设置阈值为 -55dB,最小静音时长为 1.5 秒。
- 示例配置
-
thresholdDb: -55, minSilence: 1.5 - 效果
- 获得一份包含所有超过 1.5 秒静音区间的 CSV 清单,直接导入剪辑软件进行批量删除。
2. 语音识别预处理
AI 算法工程师- 背景原因
- 需要将长音频切分成短句以提高语音识别准确率。
- 解决问题
- 需要根据自然停顿点将音频切分为多个片段。
- 如何使用
- 上传音频,设置阈值为 -45dB,最小静音时长为 0.8 秒。
- 示例配置
-
thresholdDb: -45, minSilence: 0.8 - 效果
- 导出的 JSON 数据明确了所有停顿点,作为脚本切分音频的依据。
用 Samples 测试
json, csv, audio相关专题
常见问题
该工具支持哪些音频格式?
支持常见的音频格式,如 MP3、WAV、AAC 等。
静音阈值(dB)应该如何设置?
通常建议设置为 -50dB 左右,您可以根据背景噪音大小进行调整,数值越小对静音的要求越严格。
最小静音时长有什么作用?
该参数用于过滤掉极短的停顿,仅提取超过设定时长的静音片段,避免输出过多琐碎数据。
输出的 CSV 文件包含哪些信息?
输出文件包含静音片段的起始时间、结束时间以及持续时长。
处理大文件时有限制吗?
单次上传文件大小限制为 200MB,请确保音频文件在此范围内。