Qwen-TTS

Name: Qwen-TTS
Availability: InStock
Author: 阿里巴巴

语音大模型

Qwen-TTS

发布时间: 2025-06-27更新于: 2025-06-30 15:05:561,078

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

中文支持

支持

推理能力

Qwen-TTS 是由阿里巴巴发布的 AI 模型，发布时间为 2025-06-27，定位为语音大模型，上下文长度为 8K，采用不开源许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen-TTS

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

7680 tokens

模型类型

语音大模型

发布时间

2025-06-27

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

Qwen-TTS

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://help.aliyun.com/zh/model-studio/qwen-tts

Qwen-TTS

官方介绍与博客

官方论文

Time to Speak Some Dialects, Qwen-TTS!

DataLearnerAI博客

暂无介绍博客

Qwen-TTS

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	1.6 元	10 元

Qwen-TTS

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Qwen-TTS

发布机构

阿里巴巴

查看发布机构详情

Qwen-TTS

模型解读

在2025年5月，阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS（代号 qwen‑tts‑2025‑05‑22）。该模型基于数百万小时的多语种语音数据进行训练，能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律（prosody）、语速和情感色彩，从而输出更具表现力和自然感的语音。

核心特性

大规模训练：利用海量多语种、多风格的语音文本对进行预训练，确保模型对不同语言、不同场景的鲁棒性。
动态韵律控制：可根据文本中的标点、语义结构自动优化断句与语调。
情感与风格注入：支持在合成时加入适度的情感参数（如期待、惊讶、平静等）和演讲风格（如播报、对话、故事叙述等）。
可扩展性：模型架构模块化设计，便于后续新增语种、风格或定制化声音。

支持语种与声音选项

截至目前，Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音：

Cherry（中英双语，女声）
Ethan（中英双语，男声）
Chelsie（中英双语，女声）
Serena（中英双语，女声）
Dylan（北京话口音，男声）
Jada（上海话口音，女声）
Sunny（四川话口音，女声）

更多语种（如日语、韩语、法语等）和个性化风格选项预计将在近期开启公测。

评测指标

在 SeedTTS‑Eval 基准测试中，Qwen‑TTS 各声线均展现出极低的词错误率（WER）和较高的语音相似度（SIM），评测结果如下：

Speaker	WER (↓)			SIM (↑)
Speaker	zh	en	hard	zh	en	hard
Chelsie	1.256	2.004	6.171	0.658	0.473	0.662
Serena	1.495	2.206	7.394	0.804	0.508	0.803
Ethan	1.489	1.969	6.754	0.777	0.558	0.779
Cherry	1.209	1.967	6.069	0.799	0.664	0.801

上述结果表明，Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。

Qwen‑TTS 作为阿里最新发布的语音合成大模型，凭借大规模数据训练和先进的模型架构，实现了高度自然、富有表现力的语音输出。目前模型暂未开源，但已通过 API 形式向合作伙伴提供服务。未来，阿里计划进一步扩展更多语种与风格，并优化小语种及特殊场景下的合成效果，以满足更广泛的应用需求。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

模态

输入

输出

文本

1.6 元

10 元

Speaker

WER (↓)

SIM (↑)

hard

Chelsie

1.256

2.004

6.171

0.658

0.473

0.662

Serena

1.495

2.206

7.394

0.804

0.508

0.803

Ethan

1.489

1.969

6.754

0.777

0.558

0.779

Cherry

1.209

1.967

6.069

0.799

0.664

0.801