阿里通义发布Qwen3-ASR-Toolkit，实现小时级音视频转录

发布时间：2025年9月24日来源：szf

快速阅读: 阿里通义发布Qwen3-ASR-Toolkit，支持小时级音视频转录，突破三分钟限制，采用最新Qwen3-ASR-Flash模型，确保高准确率，支持多种格式，提升转录效率。

近日，阿里通义Qwen团队发布了一款名为Qwen3-ASR-Toolkit的开源Python命令行工具。这款工具旨在为用户提供更加便捷的音视频转录服务，尤其是在音频时长方面，突破了Qwen3-ASR-Flash API的三分钟限制，能够实现小时级别的快速转录。这一新工具的推出，无疑为需要进行大规模音频转录的用户提供了强有力的支持。

Qwen3-ASR-Flash是通义千问系列中最新的语音识别模型，经过海量多模态数据及千万小时规模的自动语音识别（ASR）数据训练而成。其强大的性能为用户提供了高准确率的语音识别能力，使得长时间的音频和视频内容可以被有效转录成文本，极大地提高了工作效率。

Qwen3-ASR-Toolkit采用了智能静音切分技术（VAD），确保转录过程中句子的完整性。同时，该工具能够自动将任意采样率的音频文件重采样为16kHz单声道，以提高处理效果。此外，它还支持多线程并行上传分片的功能，这一特性显著缩短了总耗时，使用户在使用过程中体验更加流畅。

在支持的媒体格式方面，Qwen3-ASR-Toolkit基于FFmpeg，几乎涵盖了所有主流音频和视频格式，包括mp4、mov、mkv、mp3、wav、m4a等，这使得用户在进行音视频转录时，能够更加灵活地选择文件类型，无需担心格式兼容问题。

GitHub链接：https://github.com/QwenLM/Qwen3-ASR-Toolkit

划重点：

– 阿里通义推出Qwen3-ASR-Toolkit，突破音频转录时间限制，支持小时级转录。

– 该工具基于最新的Qwen3-ASR-Flash模型，确保高准确率的语音识别。

– 支持多种音视频格式，用户可以灵活选择，提升音视频转录效率。

(以上内容均由Ai生成)