语音识别
音频理解
1172K
| 版本名称: | Qwen3-ASR |
| 所属模型: | Qwen |
| 所属公司: | 阿里巴巴 |
| 发布时间: | 2026年1月30日 |
| 最新版本: | Qwen3-ASR-1.7B, Qwen3-ASR-0.6B |
| 参数规模: | 17亿,6亿 |
| 上下文长度: | 1172K |
| 支持语言: | 中文,英文,阿拉伯语,德语,西班牙语,法语,意大利语,日语,韩语,葡萄牙语,俄语等52种语种与方言 |
| 授权协议: | Apache 2.0 |
| 体验方式: | https://github.com/QwenLM/Qwen3-ASR |
Qwen3-ASR是由阿里巴巴Qwen团队开发的一系列语音识别模型,包括Qwen3-ASR-1.7B与Qwen3-ASR-0.6B两个版本,以及一个语音强制对齐模型Qwen3-ForcedAligner-0.6B。该系列模型基于创新的预训练AuT语音编码器与Qwen3-Omni基座模型,实现了精准与稳定的语音识别。Qwen3-ASR支持52个语种与方言的语种识别与语音识别,包括30个主要语种和22个中文方言,具备复杂文本识别能力和强噪声下的稳定性。其1.7B版本在中文、英文、中文口音与歌唱识别等场景下达到SOTA性能,而0.6B版本在性能与效率上实现了均衡,支持高并发推理。
Qwen3-ASR适用于多种行业和应用场景,包括教育科技(自动生成课程字幕、多语种远程辅导)、媒体与娱乐(视频字幕、配音、跨语种内容创作)、客户服务(多语种呼叫中心、智能客服记录)、会议与办公(国际化团队的实时会议纪要)以及创作者工具(短视频、播客的快速字幕生成)。其强噪声下的稳定性和多语言支持使其在复杂环境中也能高效工作,如现场采访、直播字幕等场景。
关注公众号
立刻获取最新消息及人工咨询