语音合成,正成为多模态内容创作的核心工具。而要实现真正实用、自然的 TTS(文本转语音),不仅要声音还原度高、语调情感丰富,还要接入简单、响应快速、支持个性化语音复刻。GLM-TTS正是在这类需求下诞生的一款高质量模型。
该模型由智谱 AI 开源,具备「参考音频 + 文本」的零样本语音复刻能力,能够在无需训练的前提下保持音色一致性,并结合强化学习实现对语调和情绪的可控生成。
现在,GLM-TTS 已正式上线模力方舟 Serverless API,用户可直接体验零样本播报、一键语音生成的能力。
立即体验:
https://moark.com/serverless-api?model=GLM-TTS
什么是 GLM-TTS?GLM-TTS 是一个两阶段架构的 TTS 模型:
第一阶段:使用 LLM(基于 LLaMA 架构)将输入文本转换为语音 token 序列;
第二阶段:使用 Flow 模型生成高质量梅尔频谱,再由声码器输出最终音频。
该模型设计中引入了多奖励强化学习、可控发音机制和轻量定制策略,用不到 10 秒的提示音频,即可复刻任意说话人的语音风格,生成自然、清晰、富有情感的语音内容。
核心能力亮点零样本语音克隆,复刻说话人音色
上传一段短音频(3–10 秒),即可在无微调的前提下生成相同音色的语音,适合快速复刻主播、讲解员、客户声音等场景。
高质量自然合成,适合正式播报
生成语音清晰、断句自然,语义对齐准确,可用于内容配音、有声读物、产品播报等应用。
强化学习增强情感控制
通过引入多维奖励函数(准确率 CER、相似度 SIM、情绪表达、笑声质量),并采用 GRPO 策略优化,使模型在 情绪语调和拟人感表现上超越传统系统。
精细化音素控制机制 Phoneme-in
可对多音字、冷僻词进行发音干预与定向替换,确保在教育评测、标准朗读等场景下的发音准确性。
流式推理与轻量集成
支持交互式实时语音生成。仅需提供文本与参考音频 URL,即可通过 API 实现全流程合成,便于快速部署落地。
模型效果实测(中文测试集)
模型名称 | 字符错误率 CER ↓ | 相似度 SIM ↑ | 是否开源 |
|---|---|---|---|
MiniMax | 0.83 | 78.3 | ❌ |
Seed-TTS | 1.12 | 79.6 | ❌ |
| GLM-TTS_RL | 0.89 | 76.4 | ✅ |
IndexTTS2 | 1.03 | 76.5 | ✅ |
VoxCPM | 0.93 | 77.2 | ✅ |
在 CER 与 SIM 指标上,GLM-TTS_RL接近或超越现有多款商用模型表现,在开源阵营中位列第一梯队。
GLM-TTS模型现已上线模力方舟 Serverless API,无需部署环境、无需显卡资源,即开即用,访问链接即刻在线体验:
https://moark.com/serverless-api?model=GLM-TTS




