Qwen3-ASR
语音识别
音频理解
1172K
版本名称:Qwen3-ASR
所属模型:Qwen
所属公司:阿里巴巴
发布时间:2026年1月30日
最新版本:Qwen3-ASR-1.7B, Qwen3-ASR-0.6B
参数规模:17亿,6亿
上下文长度:1172K
支持语言:中文,英文,阿拉伯语,德语,西班牙语,法语,意大利语,日语,韩语,葡萄牙语,俄语等52种语种与方言
授权协议:Apache 2.0
体验方式:https://github.com/QwenLM/Qwen3-ASR

简介

Qwen3-ASR是由阿里巴巴Qwen团队开发的一系列语音识别模型,包括Qwen3-ASR-1.7B与Qwen3-ASR-0.6B两个版本,以及一个语音强制对齐模型Qwen3-ForcedAligner-0.6B。该系列模型基于创新的预训练AuT语音编码器与Qwen3-Omni基座模型,实现了精准与稳定的语音识别。Qwen3-ASR支持52个语种与方言的语种识别与语音识别,包括30个主要语种和22个中文方言,具备复杂文本识别能力和强噪声下的稳定性。其1.7B版本在中文、英文、中文口音与歌唱识别等场景下达到SOTA性能,而0.6B版本在性能与效率上实现了均衡,支持高并发推理。

应用

Qwen3-ASR适用于多种行业和应用场景,包括教育科技(自动生成课程字幕、多语种远程辅导)、媒体与娱乐(视频字幕、配音、跨语种内容创作)、客户服务(多语种呼叫中心、智能客服记录)、会议与办公(国际化团队的实时会议纪要)以及创作者工具(短视频、播客的快速字幕生成)。其强噪声下的稳定性和多语言支持使其在复杂环境中也能高效工作,如现场采访、直播字幕等场景。

以上信息来自企数智AI小编,如有错误可反馈给我们
42
热度
人工导购
咨询服务