语音合成
| 版本名称: | Qwen3-TTS 1.7B |
| 所属模型: | Qwen |
| 所属公司: | 阿里巴巴 |
| 发布时间: | 2026年1月22日 |
| 最新版本: | Qwen3-TTS-12Hz-1.7B |
| 参数规模: | 17亿 |
| 上下文长度: | 未知 |
| 支持语言: | 中文,英文,日语,韩语,德语,法语,俄语,葡萄牙语,西班牙语,意大利语 |
| 授权协议: | Apache 2.0 |
| 体验方式: | https://www.modelscope.cn/collections/Qwen/Qwen3-TTS |
Qwen3-TTS 1.7B是阿里巴巴千问团队开发的高性能语音合成模型,采用创新的离散多码本LM架构和自研Qwen3-TTS-Tokenizer-12Hz语音编码器,实现对语音信号的高效压缩与强表征能力。该模型完整保留副语言信息和声学环境特征,通过轻量级非DiT架构实现高速、高保真的语音还原。
模型采用Dual-Track双轨建模技术,达成极致的双向流式生成速度,首包音频仅需等待一个字符,端到端合成延迟低至97ms。具备强大的上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,并对输入文本噪声具有显著鲁棒性提升。
内容创作领域:适用于播客制作、有声读物、短视频配音等场景,支持音色克隆和音色创造功能。
企业级交互场景:适用于智能客服、虚拟人、IVR语音导航,支持多语言服务和实时响应需求。
教育与娱乐产业:可用于生成多语言教学音频、游戏角色配音、虚拟主播声线定制等应用。
二次开发与定制:开发者可基于开源模型进行微调,适配医疗、金融等垂直领域需求,构建定制化语音服务解决方案。
关注公众号
立刻获取最新消息及人工咨询