Qwen3-TTS 1.7B - 企数智|企业级大模型服务平台

语音合成

参数规模：	17亿
上下文长度：	未知
支持语言：	中文,英文,日语,韩语,德语,法语,俄语,葡萄牙语,西班牙语,意大利语
授权协议：	Apache 2.0
体验方式：	https://www.modelscope.cn/collections/Qwen/Qwen3-TTS

Qwen3-TTS 1.7B是阿里巴巴千问团队开发的高性能语音合成模型，采用创新的离散多码本LM架构和自研Qwen3-TTS-Tokenizer-12Hz语音编码器，实现对语音信号的高效压缩与强表征能力。该模型完整保留副语言信息和声学环境特征，通过轻量级非DiT架构实现高速、高保真的语音还原。

模型采用Dual-Track双轨建模技术，达成极致的双向流式生成速度，首包音频仅需等待一个字符，端到端合成延迟低至97ms。具备强大的上下文理解能力，可根据指令和文本语义自适应调整语气、节奏与情感表达，并对输入文本噪声具有显著鲁棒性提升。

内容创作领域：适用于播客制作、有声读物、短视频配音等场景，支持音色克隆和音色创造功能。

企业级交互场景：适用于智能客服、虚拟人、IVR语音导航，支持多语言服务和实时响应需求。

教育与娱乐产业：可用于生成多语言教学音频、游戏角色配音、虚拟主播声线定制等应用。

二次开发与定制：开发者可基于开源模型进行微调，适配医疗、金融等垂直领域需求，构建定制化语音服务解决方案。

以上信息来自企数智AI小编，如有错误可反馈给我们

收藏微博微信

149

热度

Qwen-Image-Edit-2511 Qwen3-ASR Qwen3-Max-Thinking Qwen3.5-397B-A17B Qwen3-Coder-Next Qwen3-Max-Preview

企业数智化服务平台

www.QiShuZhi.com

微信

小红书

企数智，企业数智化服务平台

津ICP备14003781号-9

回顶部

简介