Qwen3-TTS 1.7B
语音合成
版本名称:Qwen3-TTS 1.7B
所属模型:Qwen
所属公司:阿里巴巴
发布时间:2026年1月22日
最新版本:Qwen3-TTS-12Hz-1.7B
参数规模:17亿
上下文长度:未知
支持语言:中文,英文,日语,韩语,德语,法语,俄语,葡萄牙语,西班牙语,意大利语
授权协议:Apache 2.0
体验方式:https://www.modelscope.cn/collections/Qwen/Qwen3-TTS

简介

Qwen3-TTS 1.7B是阿里巴巴千问团队开发的高性能语音合成模型,采用创新的离散多码本LM架构和自研Qwen3-TTS-Tokenizer-12Hz语音编码器,实现对语音信号的高效压缩与强表征能力。该模型完整保留副语言信息和声学环境特征,通过轻量级非DiT架构实现高速、高保真的语音还原。

模型采用Dual-Track双轨建模技术,达成极致的双向流式生成速度,首包音频仅需等待一个字符,端到端合成延迟低至97ms。具备强大的上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,并对输入文本噪声具有显著鲁棒性提升。

应用

内容创作领域:适用于播客制作、有声读物、短视频配音等场景,支持音色克隆和音色创造功能。

企业级交互场景:适用于智能客服、虚拟人、IVR语音导航,支持多语言服务和实时响应需求。

教育与娱乐产业:可用于生成多语言教学音频、游戏角色配音、虚拟主播声线定制等应用。

二次开发与定制:开发者可基于开源模型进行微调,适配医疗、金融等垂直领域需求,构建定制化语音服务解决方案。

以上信息来自企数智AI小编,如有错误可反馈给我们
3
热度
人工导购
咨询服务