DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Qwen-TTS
QW

Qwen-TTS

语音大模型

Qwen-TTS

发布时间: 2025-06-27更新于: 2025-06-30 15:05:561,078
在线体验GitHubHugging FaceCompare
模型参数
未披露
上下文长度
8K
中文支持
支持
推理能力

Qwen-TTS 是由 阿里巴巴 发布的 AI 模型,发布时间为 2025-06-27,定位为 语音大模型,上下文长度为 8K,采用 不开源 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

Qwen-TTS

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
8K tokens
最大输出长度
7680 tokens
模型类型
语音大模型
发布时间
2025-06-27
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
暂无数据 / 不涉及
知识截止
暂无数据
Qwen-TTS

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
https://help.aliyun.com/zh/model-studio/qwen-tts
Qwen-TTS

官方介绍与博客

官方论文
Time to Speak Some Dialects, Qwen-TTS!
DataLearnerAI博客
暂无介绍博客
Qwen-TTS

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本1.6 元10 元
Qwen-TTS

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

Qwen-TTS

发布机构

阿里巴巴
阿里巴巴
查看发布机构详情
Qwen-TTS

模型解读

在2025年5月,阿里通过 Qwen API 正式发布了最新版本的 Qwen‑TTS(代号 qwen‑tts‑2025‑05‑22)。该模型基于数百万小时的多语种语音数据进行训练,能够在多项主流评测基准上达到接近人类的自然度和表现力。Qwen‑TTS 能够根据输入文本内容自动调整韵律(prosody)、语速和情感色彩,从而输出更具表现力和自然感的语音。


核心特性

  • 大规模训练:利用海量多语种、多风格的语音文本对进行预训练,确保模型对不同语言、不同场景的鲁棒性。
  • 动态韵律控制:可根据文本中的标点、语义结构自动优化断句与语调。
  • 情感与风格注入:支持在合成时加入适度的情感参数(如期待、惊讶、平静等)和演讲风格(如播报、对话、故事叙述等)。
  • 可扩展性:模型架构模块化设计,便于后续新增语种、风格或定制化声音。

支持语种与声音选项

截至目前,Qwen‑TTS 已发布包括中英双语在内的 7 个标准合成声音:

  • Cherry(中英双语,女声)
  • Ethan(中英双语,男声)
  • Chelsie(中英双语,女声)
  • Serena(中英双语,女声)
  • Dylan(北京话口音,男声)
  • Jada(上海话口音,女声)
  • Sunny(四川话口音,女声)

更多语种(如日语、韩语、法语等)和个性化风格选项预计将在近期开启公测。


评测指标

在 SeedTTS‑Eval 基准测试中,Qwen‑TTS 各声线均展现出极低的词错误率(WER)和较高的语音相似度(SIM),评测结果如下:

SpeakerWER (↓)SIM (↑)
zhenhardzhenhard
Chelsie1.2562.0046.1710.6580.4730.662
Serena1.4952.2067.3940.8040.5080.803
Ethan1.4891.9696.7540.7770.5580.779
Cherry1.2091.9676.0690.7990.6640.801

上述结果表明,Qwen‑TTS 在多种测试场景下均可达到接近人类的合成质量。


Qwen‑TTS 作为阿里最新发布的语音合成大模型,凭借大规模数据训练和先进的模型架构,实现了高度自然、富有表现力的语音输出。目前模型暂未开源,但已通过 API 形式向合作伙伴提供服务。未来,阿里计划进一步扩展更多语种与风格,并优化小语种及特殊场景下的合成效果,以满足更广泛的应用需求。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码